Caltech発のPrismMLが、「8Bモデルでも1.15GBまで縮む」という衝撃の現実を突きつけました

Caltech発のPrismMLが、いまのAI業界にかなり痛い事実を突きつけました。

賢いAIを作るには、巨大モデルと巨大データセンターが必要だ――そんな前提が当たり前になっていたなかで、同社は8B級の1-bit LLM「Bonsai 8B」を1.15GBまで縮めたと発表しました。数字だけ見ると地味に見えるかもしれません。

でも、ここで壊れかけているのは“AIはクラウドの中だけのもの”という前提そのものです。

PrismMLによれば、このモデルは埋め込み、注意機構、MLP、LM headまで含めてエンドツーエンドで1-bit化されています。つまり一部だけ軽量化した“なんちゃって圧縮版”ではなく、設計思想そのものが違う。

しかも同社は、標準的な8Bフル精度モデルに比べて12〜14分の1のサイズにしながら、標準ベンチマークでは競争力を維持できると主張しています。

ここで効いてくるのが、単なる容量の小ささではなく「どこで動かせるか」です。

PrismMLはBonsai 8BがiPhone 17 Pro級の端末に収まり、M4 Pro Macでは毎秒131トークン、RTX 4090では毎秒368トークン、iPhone 17 Pro Maxでも毎秒44トークン前後で動作すると説明しています。

もちろんメーカー発表なので割り引いて見る必要はあります。それでも、“スマホではまともな8Bは無理”という感覚にヒビを入れるには十分です。

この話が面白いのは、オンデバイスAIの価値が単なるロマンで終わらないからです。モデルが端末の中で動けば、応答は速くなる。機密データを外に出さずに済む。圏外や低帯域でも使える。

企業ならコンプライアンスや情報持ち出しの問題が軽くなるし、個人なら「毎回クラウドに送るのはちょっと嫌だな」という心理的ハードルも下がる。 AIがクラウド専用品から“手元の道具”へ変わると、使い方そのものが変わります。

PrismMLはこの価値を「Intelligence Density（知能密度）」という言葉で説明しています。どれだけ賢いかだけでなく、1GBあたりどれだけ実用的な知能を詰め込めるかを競う発想です。

今までのAI競争は、より大きく、より高価に、より計算資源を消費する方向に偏っていました。そこへ「同じくらい使えるなら、より小さくて、より安くて、よりローカルで動くほうが強い」という軸が本気で入ってきた。

これは地味どころか、かなり構造的な変化です。

さらに重要なのは、エージェント用途との相性です。 PrismMLは、長時間にわたるチケット要約・割り当てのような連続タスクで、通常の16-bit 8Bモデルが同じ時間内に6件しか処理できなかったのに対し、Bonsai 8Bは50件を完了したと紹介しています。

ここもベンダー資料なので鵜呑みは禁物ですが、少なくとも“推論を何回も回す仕事”では、少しの賢さ差より速度・省メモリ・消費電力のほうが支配的になる現実が見えてきます。

しかも省電力面でも、PrismMLは16-bit系に対して4〜5倍の効率改善をうたっています。AIが本当に日常インフラになるなら、性能だけでなく電力効率は避けて通れません。スマホ、車、ロボット、ウェアラブル、工場端末――こうした場所では、巨大モデルの知能より“限られた電力で何をどこまでできるか”のほうがずっと重要です。

もちろん未知数もあります。ベンチマークの切り取り方、長文推論の安定性、ツール利用の信頼性、開発者が実際に扱いやすいか、ライセンス条件はどうか。こういう部分を見ないと、本当に“商用で使える1-bit LLM”かはまだ断言できません。それでも今回の発表が強いのは、AIの勝負軸を「最大性能」から「配備可能性」へ動かしたことです。

GPUを何万枚も持つ会社だけが勝つ、という世界観はたしかに強い。でも、その裏で“十分に賢く、圧倒的に軽いモデル”が普及すると、AIの勢力図は一気に変わります。次の主戦場は、クラウドで最強のモデルを作ることだけじゃない。

誰のポケットで、誰の端末で、誰の仕事を、どれだけ低コストで回せるかです。 PrismMLのBonsai 8Bは、その現実をかなり生々しく見せてきました。

Caltech発のPrismMLが、「8Bモデルでも1.15GBまで縮む」という衝撃の現実を突きつけました

NASAが、「iPhoneは地上の日用品にすぎない」という衝撃の現実を突きつけました

SamsungとLGの半導体をめぐる最新動向