GeminiネイティブオーディオがSearch Liveに初搭載

音声エージェント機能の3つの強化点

関数呼び出し精度が向上し、ComplexFuncBenchで業界最高の71.5%を達成
開発者指示への準拠率が84%から90%に改善し、出力の信頼性が向上
マルチターン会話で文脈取得能力が強化され、会話の一貫性が向上
Vertex AIで一般提供開始、Gemini APIではプレビュー提供中
ShopifyやUWMなど企業顧客がすでにビジネス成果を報告
Search Liveに初めてネイティブオーディオが統合され、より自然な検索体験を実現

リアルタイム音声翻訳機能の提供開始

70言語・2000言語ペアに対応したライブ音声翻訳機能を新たに搭載
話者のイントネーション・速度・声の高さを保持した自然な翻訳を実現
複数言語を同時に認識し、言語設定の手動変更が不要な自動検出に対応
ノイズ除去機能により屋外など騒がしい環境でも快適に利用可能
Googleの翻訳アプリでベータ版として提供開始(Android米国・メキシコ・インド
2026年にはGemini APIを含む他のGoogleプロダクトにも展開予定
詳細を読む

Googleは2025年12月12日、Gemini 2.5 Flash ネイティブオーディオのアップデートを発表し、音声エージェントの機能を大幅に強化しました。

今回のアップデートでは、関数呼び出しの信頼性向上、複雑な指示への対応強化、マルチターン会話品質の改善という3つの主要な改善が実施されました。

複数ステップの関数呼び出しを評価するComplexFuncBenchオーディオベンチマークでは、Gemini 2.5 ネイティブオーディオが業界最高スコアの71.5%を記録しました。

開発者の指示への準拠率は従来の84%から90%に向上し、出力の完全性に関するユーザー満足度が高まっています。

Gemini 2.5 Flash ネイティブオーディオはVertex AIで一般提供が開始され、Google AI StudioおよびGemini APIでもプレビュー利用が可能になりました。

Shopifyは「1分以内にAIと話していることを忘れる」と述べ、UWMは14,000件以上のローン生成を達成するなど、企業での導入成果が報告されています。

また、Google検索機能であるSearch Liveに初めてネイティブオーディオモデルが統合され、より流暢で表情豊かな音声応答が利用可能になりました。

新機能としてリアルタイム音声翻訳が追加され、70言語・2000言語ペアに対応したストリーミング翻訳が提供されます。

この翻訳機能は話者のイントネーションや速度を保持しながら自動言語検出を行い、イヤフォンを通じてリアルタイムに翻訳音声を提供します。

現在はAndroidデバイス向けにGoogleの翻訳アプリでベータ版として展開中であり、2026年中にGemini APIを含むさらなる製品への拡大が予定されています。