Mistralが音声生成モデル「Voxtral TTS」をオープンソースで公開。スマートウォッチで動く3Bパラメータが、ElevenLabsとOpenAIに宣戦布告する

仏Mistralがオープンソース音声生成モデル「Voxtral TTS」を公開。30億パラメータ、9言語対応、スマートウォッチで動作。5秒の音声サンプルからカスタムボイスを生成し、90msで初回音声出力。ElevenLabsやOpenAIへの直接挑戦。

AutoMedia Desk

2026/03/28 17:23

3分

更新 2026/03/28 17:23

フランスのAI企業Mistralが、オープンソースのテキスト読み上げ（TTS）モデル「Voxtral TTS」を公開した。30億パラメータ。スマートウォッチでも動作する。

音声AI市場で先行するElevenLabs、Deepgram、OpenAIに対する直接的な挑戦だ。

性能の数字

Voxtral TTSは9言語（英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語）に対応する。日本語は含まれていない。

500文字・10秒分の音声生成における初回音声出力（TTFA）は90ミリ秒。リアルタイムファクター（RTF）は6倍——10秒のクリップを約1.6秒で生成する。

5秒未満の音声サンプルからカスタムボイスを生成でき、アクセント、イントネーション、話し方の癖まで再現する。言語を切り替えても声の特徴は維持される。吹き替えやリアルタイム翻訳を想定した設計だ。

「顧客から音声モデルの要望があった。だからスマートウォッチ、スマートフォン、ラップトップなどのエッジデバイスに収まる小型モデルを作った。コストは市場のどの製品よりもはるかに安いが、最先端の性能を出す」——Pierre Stock、Mistral AI科学運用VP。

ベースモデルはMinistral 3B。高VRAM GPUを必要とする従来のTTSモデルと異なり、量子化技術とストリームライン化されたトランスフォーマーアーキテクチャで、極めて小さなメモリフットプリントを実現した。

ElevenLabsは従量課金、OpenAIはAPI経由のクラウドサービス。どちらもデータはクラウドに送られる。

Mistralはオープンソースで勝負する。ローカル実行可能。データはデバイスから出ない。医療や法務など、音声データのクラウド送信がコンプライアンス上の問題になるセクターにとっては決定的な差だ。

コスト面でも有利だ。エンタープライズ向けTTS APIは大規模運用でコストが膨らむ。ユーザーのハードウェアで動くオープンソースモデルなら、リクエスト単位のコストはゼロになる。

今年初め、Mistralはバッチ処理用と低レイテンシ用の2つの書き起こしモデル（Voxtral Transcribe）を公開している。今回のTTSモデルと合わせて、音声入出力の完全なスイートが揃った。

「音声・テキスト・画像を含むマルチモーダルな入出力ストリームを処理するエンドツーエンドプラットフォームを計画している」とStock氏は述べた。

3Bパラメータでスマートウォッチに乗る音声モデル。Mistralのオープンソース戦略が、音声AI市場の価格構造を根本から変える可能性がある。