MistralがElevenLabsを超えるTTSモデルを無料公開——スマホで動く4B音声AI「Voxtral TTS」の衝撃
MistralがオープンウェイトのTTSモデル「Voxtral TTS」を公開。ElevenLabsを自然さで上回りながら、スマホでも動くコンパクト設計。企業が音声AIを「所有」できる時代が始まった。日本語対応への期待と影響を解説。

MistralがElevenLabsに「宣戦布告」した——そんな言葉がちょうどいいニュースが飛び込んできた。
フランスのAIスタートアップMistral AIが、音声合成モデル「Voxtral TTS」を公開した。注目すべきは2点だ。①ElevenLabsより自然な音声を生成すると主張していること、②モデルの重みを無料で公開し、誰でもダウンロードして自社サーバーやスマホ上で動かせること。
音声AI市場は今や年間220億ドル規模。ElevenLabsがIBMと組んだばかりのこのタイミングで、Mistralが真逆の「オープン路線」で乗り込んできた。
Voxtral TTSの実力
モデルの構成はシンプルで強い:
- トランスフォーマーデコーダー:3.4Bパラメータ
- 音響トランスフォーマー:390M(フローマッチング方式)
- ニューラルオーディオコーデック:300M(自社開発)
合計4Bパラメータという軽量設計にもかかわらず、ヒューマン評価でElevenLabs Flash v2.5より自然さで上回り、ElevenLabs v3と同等の品質を達成したとMistralは主張する。
しかも動作が速い。70ミリ秒で最初の音声を出力し、リアルタイムの約10倍速で音声を生成する。量子化すればわずか3GBのRAMで動作、古いチップでもリアルタイム処理が可能だ。「スマホで動く」というのは比喩でなく、文字通りのことだ。
「所有できる音声AI」という新しい価値
今まで企業がElevenLabsやGoogle TTSを使う場合、音声データをクラウドに送る必要があった。顧客の声、会議の音声、プロダクトのナレーション——すべてが外部サーバーを経由する。
Voxtral TTSは違う。モデルを自社サーバーにダウンロードし、一切の音声データを外に出さずに運用できる。これは特に医療・法律・金融などの機密データを扱う企業にとって、ゲームチェンジャーになりうる。
Mistralのサイエンス担当VP、Pierre Stockはこう語る。「音声はAIモデルとの唯一かつ最重要のインターフェースになる。これは顧客から強く求められていた機能だ。」
9言語対応、5秒の音声で声を複製
Voxtral TTSは英語・フランス語・ドイツ語・スペイン語・オランダ語・ポルトガル語・イタリア語・ヒンディー語・アラビア語の9言語に対応。わずか5秒の参照音声があれば、話者の声・リズム・抑揚・感情表現まで再現できる。
さらに「ゼロショット言語横断音声適応」も可能。たとえばフランス語アクセントの英語音声を、明示的なトレーニングなしに生成できる。翻訳の音声合成パイプラインへの応用が期待される。
日本語非対応が唯一の弱点
今のところ日本語は9言語に入っていない。日本市場への直接の恩恵は限定的だが、Mistralが「音声AI」をオープン化することで、日本語対応の派生モデルが登場するシナリオは現実的だ。
オープンウェイトという性質上、コミュニティが日本語追加学習をすることも十分ありえる。HuggingFace上で「mistralai/Voxtral-4B-TTS-2603」として公開済みで、CC BY NC 4.0ライセンス(非商用なら無料)が適用されている。
APIも使える、価格は1000文字あたり$0.016
APIとしても利用可能で、価格は1000文字あたり$0.016。ElevenLabsの競合プランと比較しても競争力のある水準だ。Mistral Studioのプレイグラウンドで今すぐ試すこともできる。
音声AIの覇権争いは、クローズドとオープンの二極化へ。ElevenLabsとIBMの連合に対して、Mistralは「所有できる音声AI」で挑む。2026年の音声AI戦争、まだ始まったばかりだ。
この記事が役に立ったら共有してください

楽天がOpenAIに挑む。日本最大700BパラメータのAIモデル「Rakuten AI 3.0」を無料公開【2026年版】
楽天グループが日本最大級の大規模言語モデル「Rakuten AI 3.0」を無料公開。700Bパラメータ・MoEアーキテクチャで日本語性能が圧倒的。経済産業省のGENIACプロジェクトの一環で、Apache 2.0ライセンスで誰でも使える。日本のAI開発はここから加速する。
5日前Metaが「脳のデジタルツイン」を作った。700人分の脳スキャンで訓練、あなたが何を見て何を感じるか、AIが事前予測する
MetaがfMRI脳スキャン720人分で訓練したAI「TRIBE v2」を公開。動画・音声・テキストに対する脳反応を事前予測できる「脳のデジタルツイン」。神経科学研究に使えるが、広告と組み合わせると何が起きるか——
6日前広告