Google、70言語超対応のリアルタイム音声翻訳AIを公開

2026年06月09日 Google Gemini Android iOS エンジニアコンテンツ

翻訳モデルの技術特性

70以上の言語を自動検出

話者の抑揚やピッチを保持

数秒遅れの連続翻訳を実現

騒音環境にも対応する堅牢性

展開先と活用事例

Google Meetで順次提供開始

翻訳アプリにも全世界展開

Grabが月間1000万件超の通話で試験

SynthIDで生成音声に透かし付与

出典：DeepMind公式 | Ars Technica

詳細を読む

Googleは2026年6月9日、リアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表しました。このモデルは70以上の言語を自動検出し、話者の抑揚・ペース・ピッチを保持したまま自然な音声翻訳を生成します。従来のターン制翻訳とは異なり、話者の発話中に連続的に翻訳を出力し、数秒の遅延で追従する仕組みです。

技術面では、翻訳品質を高めるための文脈待機と即時翻訳のバランスを自動調整する点が特徴です。Google I/Oで発表された3.5ファミリーの一部として位置づけられ、Flash版に続く音声特化モデルとなります。背景雑音への耐性も備えており、騒がしい環境でも安定した翻訳を提供します。

展開先は多岐にわたります。開発者向けにはGemini Live APIとGoogle AI Studioでパブリックプレビューを開始しました。企業向けにはGoogle Meetでの音声翻訳として今月中にプライベートプレビューを提供し、対応言語を従来の5言語から70以上へ、言語の組み合わせを2000以上へと大幅に拡大します。

一般ユーザー向けには、AndroidとiOSのGoogle翻訳アプリでグローバルに展開を開始しました。Android版では新たに「リスニングモード」を追加し、イヤホンなしでも電話のように耳に当てるだけで翻訳音声を聞ける機能を実装しています。

実用面では、東南アジアの配車サービス大手Grabが、ドライバーと乗客間の多言語コミュニケーションにこのモデルを試験導入しています。Grabでは月間1000万件以上の音声通話がアプリ経由で行われており、大規模な実地検証の場となっています。生成されるすべての翻訳音声にはSynthIDによる電子透かしが埋め込まれ、AI生成コンテンツの検出可能性を確保しています。