Googleの新圧縮アルゴリズム「TurboQuant」、AIメモリ使用量を6分の1に——発表数時間でメモリ株が急落
Googleが新圧縮アルゴリズムTurboQuantを発表。LLMのKVキャッシュを16ビットから3ビットに圧縮し、メモリ使用量を6分の1に削減。精度劣化ゼロ。発表数時間でMicron、Western Digital、SanDiskの株価が急落した。
Googleが火曜日に公開した研究ブログ記事が、半導体メモリ市場を揺らした。
発表から数時間でMicronが3%下落、Western Digitalが4.7%下落、SanDiskが5.7%下落。投資家たちが「AI業界に本当に必要なメモリ容量」を再計算し始めた結果だ。
TurboQuantとは何か
問題はLLM(大規模言語モデル)の推論コストだ。 モデルが長い入力を処理するとき、キー・バリューキャッシュ(KVキャッシュ)と呼ばれる高速データストアが急速にGPUメモリを食い潰す。 TurboQuantはこのKVキャッシュを標準の16ビットからわずか3ビットに圧縮する。
メモリ使用量は6分の1以下。 Googleのベンチマークによれば、精度の劣化は測定不能なレベル。
4ビット精度の場合、Nvidia H100 GPUで非圧縮の32ビットベースラインと比較して最大8倍の高速化を達成した。
技術的な仕組み
従来の量子化手法は、データベクトルを小さくする一方で解凍用の定数(正規化値)を保存する必要があり、圧縮効果を部分的に打ち消していた。TurboQuantは2段階のアプローチでこの問題を解決する。
第1段階:PolarQuant — データベクトルを直交座標系から極座標系に変換し、大きさと角度のセットに分離する。角度分布は予測可能なパターンに従うため、ブロックごとの正規化ステップを完全にスキップできる。
第2段階:QJL(Quantized Johnson-Lindenstrauss) — ジョンソン・リンデンシュトラウス変換に基づく技術で、第1段階の残差誤差を1次元あたり1ビットの符号ビットに削減する。
結果として、圧縮予算のほとんどがデータの意味の捕捉に使われ、正規化定数にメモリが浪費されない。
検証結果
LongBench、Needle in a Haystack、ZeroSCROLLSを含む5つの標準ベンチマークで、Gemma、Mistral、Llamaファミリーのオープンソースモデルを使ってテスト。 3ビットでKVキャッシュ量子化の標準手法KIVIと同等以上の性能を達成。
Needle in a Haystackの検索タスクでは、キャッシュを6分の1に圧縮しながらパーフェクトスコアを記録した。
市場への影響
Wells FargoのアナリストAndrew Rochaは「TurboQuantはAIシステムのメモリコスト曲線を直接攻撃する」と指摘。ただし同氏を含む複数のアナリストは、AIメモリの需要は依然として強く、圧縮アルゴリズムが調達量を根本的に変えた前例はないと注意を促した。
論文はICLR 2026で発表予定。著者はGoogleのAmir ZandiehとVahab Mirrokni、およびGoogle DeepMind、KAIST、ニューヨーク大学の研究者。
---
*ソース: The Next Web, Google Research Blog*
この記事が役に立ったら共有してください

