DeepLがリアルタイム音声翻訳に参入

音声翻訳の全体像

テキスト翻訳大手音声領域へ拡大
Zoom・Teams向けアドインを提供
モバイル・Web・対面会話に対応
業界用語の学習・適応機能を搭載

技術と競合環境

現行は音声→テキスト→翻訳→音声の構成
将来はエンドツーエンド音声モデルを目指す
Sanas・Camb.AI・Palabraと競合
開発者向けAPIも同時公開
詳細を読む

テキスト翻訳サービスで知られるDeepLは2026年4月16日、リアルタイム音声翻訳スイートを発表しました。会議、モバイル・Web会話、現場作業者向けのグループ会話など複数のユースケースをカバーし、外部開発者がコールセンターなど独自用途に活用できるAPIも同時にリリースしています。

CEOのヤレク・クティウォフスキ氏は「テキスト翻訳で長年培った技術の自然な発展」と説明し、低遅延と高精度の両立が最大の技術課題だったと述べました。ZoomやMicrosoft Teams向けのアドインでは、話者の発言をリアルタイムで翻訳音声またはテキストとして聞くことができます。現在は早期アクセスプログラムとして組織単位でウェイトリストを受け付けています。

現行システムは音声をテキストに変換してから翻訳し、再度音声に戻すカスケード方式を採用しています。DeepLはテキスト翻訳での蓄積が品質面での優位性になると主張しつつ、将来的にはテキスト変換を省略するエンドツーエンドの音声翻訳モデルの開発を目指しています。

競合にはコールセンター向けアクセント変換のSanas、メディア向け吹き替えのCamb.AI、話者の声を保持したまま翻訳するPalabraなどがいます。DeepLは翻訳スタック全体を自社で制御する点と、業界用語や固有名詞への適応機能を差別化要素として位置づけています。