Mistralが音声生成モデル「Voxtral TTS」をオープンソースで公開。スマートウォッチで動く3Bパラメータが、ElevenLabsとOpenAIに宣戦布告する
仏Mistralがオープンソース音声生成モデル「Voxtral TTS」を公開。30億パラメータ、9言語対応、スマートウォッチで動作。5秒の音声サンプルからカスタムボイスを生成し、90msで初回音声出力。ElevenLabsやOpenAIへの直接挑戦。

フランスのAI企業Mistralが、オープンソースのテキスト読み上げ(TTS)モデル「Voxtral TTS」を公開した。30億パラメータ。スマートウォッチでも動作する。
音声AI市場で先行するElevenLabs、Deepgram、OpenAIに対する直接的な挑戦だ。
性能の数字
Voxtral TTSは9言語(英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語)に対応する。日本語は含まれていない。
500文字・10秒分の音声生成における初回音声出力(TTFA)は90ミリ秒。リアルタイムファクター(RTF)は6倍——10秒のクリップを約1.6秒で生成する。
5秒未満の音声サンプルからカスタムボイスを生成でき、アクセント、イントネーション、話し方の癖まで再現する。言語を切り替えても声の特徴は維持される。吹き替えやリアルタイム翻訳を想定した設計だ。
なぜスマートウォッチなのか
「顧客から音声モデルの要望があった。だからスマートウォッチ、スマートフォン、ラップトップなどのエッジデバイスに収まる小型モデルを作った。コストは市場のどの製品よりもはるかに安いが、最先端の性能を出す」——Pierre Stock、Mistral AI科学運用VP。
ベースモデルはMinistral 3B。高VRAM GPUを必要とする従来のTTSモデルと異なり、量子化技術とストリームライン化されたトランスフォーマーアーキテクチャで、極めて小さなメモリフットプリントを実現した。
オープンソースの賭け
ElevenLabsは従量課金、OpenAIはAPI経由のクラウドサービス。どちらもデータはクラウドに送られる。
Mistralはオープンソースで勝負する。ローカル実行可能。データはデバイスから出ない。医療や法務など、音声データのクラウド送信がコンプライアンス上の問題になるセクターにとっては決定的な差だ。
コスト面でも有利だ。エンタープライズ向けTTS APIは大規模運用でコストが膨らむ。ユーザーのハードウェアで動くオープンソースモデルなら、リクエスト単位のコストはゼロになる。
音声エージェントプラットフォームへの布石
今年初め、Mistralはバッチ処理用と低レイテンシ用の2つの書き起こしモデル(Voxtral Transcribe)を公開している。今回のTTSモデルと合わせて、音声入出力の完全なスイートが揃った。
「音声・テキスト・画像を含むマルチモーダルな入出力ストリームを処理するエンドツーエンドプラットフォームを計画している」とStock氏は述べた。
3Bパラメータでスマートウォッチに乗る音声モデル。Mistralのオープンソース戦略が、音声AI市場の価格構造を根本から変える可能性がある。
この記事が役に立ったら共有してください
Googleの新圧縮アルゴリズム「TurboQuant」、AIメモリ使用量を6分の1に——発表数時間でメモリ株が急落
Googleが新圧縮アルゴリズムTurboQuantを発表。LLMのKVキャッシュを16ビットから3ビットに圧縮し、メモリ使用量を6分の1に削減。精度劣化ゼロ。発表数時間でMicron、Western Digital、SanDiskの株価が急落した。
3時間前
ZuckerbergがMuskに「DOGEを手伝う」とテキスト送信——裁判資料で発覚した巨頭間の私的やり取り
Zuckerbergが2025年2月にMuskへDOGE協力を申し出ていた。OpenAI買収入札への参加も打診されたが合流せず。裁判資料で私的テキストが公開された。
5時間前広告