Mistral AIが音声合成モデルをオープンウェイトで無償公開

モデルの技術的特徴

30億パラメータでスマホ動作可能
音声まで90ミリ秒の低遅延
リアルタイムの6倍速音声生成
量子化時わずか3GBのRAM消費
9言語対応で5秒の音声で声質複製

競合との差別化戦略

ElevenLabs比で約70%の選好率
オープンウェイトで完全自社運用可能
音声データの主権を企業側に確保

企業向けAI基盤の完成

音声認識から合成まで一気通貫パイプライン
Forge・AI Studioと統合しフルスタック提供
年間売上10億ドル超えの見通し
詳細を読む

Mistral AIは2026年3月26日、企業向けテキスト音声合成モデル「Voxtral TTS」をオープンウェイトで公開しました。パリ拠点の同社は、競合他社がAPIベースの従量課金モデルを採用する中、モデルの重みを無償提供し、企業が自社サーバーやスマートフォン上で自由に運用できる方針を打ち出しています。

技術面では、34億パラメータのTransformerデコーダ、3.9億パラメータのフローマッチング音響変換器、3億パラメータの自社開発ニューラルオーディオコーデックの3層構造を採用しています。初音声までの遅延はわずか90ミリ秒で、リアルタイムの約6倍速で音声を生成します。量子化すれば約3GBのRAMで動作し、旧型ハードウェアでもリアルタイム処理が可能です。

同社の人間評価では、ElevenLabs Flash v2.5に対して62.8%、音声カスタマイズでは69.9%の選好率を達成しました。わずか5秒の参照音声で声質を複製でき、ゼロショットの多言語クロスリンガル音声適応も実現しています。9言語に対応し、話者のアクセントや声質を保持したまま言語を切り替えられるため、多国籍企業の顧客対応や社内コミュニケーションに大きな可能性があります。

この公開は、Mistralが過去1年で構築してきた企業向けAIフルスタック戦略の集大成です。音声認識モデル「Voxtral Transcribe」、カスタマイズ基盤「Forge」、本番運用基盤「AI Studio」と組み合わせることで、外部プロバイダーに依存しない音声エージェントパイプラインが完成します。CEOのArthur Mensch氏は年間売上10億ドル超の見通しを示しています。

同社科学担当副社長のPierre Stock氏は、音声データには感情やアイデンティティが含まれ、金融・医療・政府機関にとって第三者APIへの送信はコンプライアンス上のリスクだと指摘しました。欧州ではデジタルサービスの80%以上を米国企業に依存しており、Mistralデータ主権を重視する欧州企業の受け皿として、今後は完全エンドツーエンドの音声AIモデルへの進化を目指すとしています。