Google、70言語超対応のリアルタイム音声翻訳AIを公開
詳細を読む
Googleは2026年6月9日、リアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表しました。このモデルは70以上の言語を自動検出し、話者の抑揚・ペース・ピッチを保持したまま自然な音声翻訳を生成します。従来のターン制翻訳とは異なり、話者の発話中に連続的に翻訳を出力し、数秒の遅延で追従する仕組みです。
技術面では、翻訳品質を高めるための文脈待機と即時翻訳のバランスを自動調整する点が特徴です。Google I/Oで発表された3.5ファミリーの一部として位置づけられ、Flash版に続く音声特化モデルとなります。背景雑音への耐性も備えており、騒がしい環境でも安定した翻訳を提供します。
展開先は多岐にわたります。開発者向けにはGemini Live APIとGoogle AI Studioでパブリックプレビューを開始しました。企業向けにはGoogle Meetでの音声翻訳として今月中にプライベートプレビューを提供し、対応言語を従来の5言語から70以上へ、言語の組み合わせを2000以上へと大幅に拡大します。
一般ユーザー向けには、AndroidとiOSのGoogle翻訳アプリでグローバルに展開を開始しました。Android版では新たに「リスニングモード」を追加し、イヤホンなしでも電話のように耳に当てるだけで翻訳音声を聞ける機能を実装しています。
実用面では、東南アジアの配車サービス大手Grabが、ドライバーと乗客間の多言語コミュニケーションにこのモデルを試験導入しています。Grabでは月間1000万件以上の音声通話がアプリ経由で行われており、大規模な実地検証の場となっています。生成されるすべての翻訳音声にはSynthIDによる電子透かしが埋め込まれ、AI生成コンテンツの検出可能性を確保しています。