Scale AI、音声AI初の実世界ベンチマーク公開

2026年03月20日 OpenAI Gemini Grok Qwen GPT-4 オープンウェイト

評価手法の革新

60言語超の実音声で評価

利用中会話から盲検比較実施

投票後に選択モデルへ自動切替

合成音声でなく実環境音声使用

主要モデルの実力

音声認識はGemini 3 Proが首位

音声対話はGPT-4o Audioが優勢

Grok Voiceが補正後に急浮上

Qwen 3 Omniが知名度以上の健闘

浮き彫りの課題

非英語で応答言語が切替わる欠陥

同一モデル内で音声選択により勝率30pt差

会話が長引くと内容品質が急劣化

出典：VentureBeat

詳細を読む

Scale AIは2026年3月18日、音声AIモデルを実際の人間の会話データで評価する世界初のベンチマーク「Voice Showdown」を公開しました。60言語以上、数千件の自発的音声会話から収集した選好データに基づき、既存の合成音声ベンチマークでは見落とされてきた能力差を明らかにしています。

評価はScale AIのChatLabプラットフォーム上で行われます。ユーザーはフロンティアモデルを無料で利用でき、音声プロンプトの5％未満の頻度で匿名の2モデル比較が提示されます。投票後は選んだモデルに切り替わるため、誠実な投票が動機づけられる設計です。

音声認識（Dictate）部門ではGemini 3 ProとGemini 3 Flashが統計的に同率首位となり、GPT-4o Audioが3位に続きました。音声対話（S2S）部門ではスタイル補正後にGPT-4o Audioが首位、Grok Voiceが僅差の2位に浮上しています。オープンウェイトのQwen 3 Omniは両部門で4位と健闘しました。

最も深刻な発見は多言語対応の脆弱性です。OpenAIのGPT Realtime 1.5はヒンディー語やスペイン語など公式対応言語でも約20％の確率で英語で応答してしまいます。また同一モデル内でも音声の選択により勝率が30ポイントも変動することが判明しました。

さらに会話が長くなるにつれ内容品質の劣化が主要な失敗要因となることが示されました。1ターン目では品質起因の失敗が23％ですが、11ターン以降は43％に急増します。Scale AIは今後、リアルタイムの全二重通話評価モードの追加を予定しており、音声AI評価の新たな業界標準となることが期待されます。