Gemini 2.5音声モデル刷新 表現力と制御性が向上
表現力とペース制御の進化
表現力と指示忠実度が大幅に向上
文脈に応じたペース調整が可能に
独自のトーン指定に正確に対応
対話生成と実用性の拡大
複数話者の声質一貫性を維持
24言語対応で多言語展開を支援
AI Studioですぐに試用可能
Wondercraft等が本番環境で採用
出典:Google公式
詳細を読む
Googleは12月10日、開発者向けブログにて「Gemini 2.5 Flash」および「Pro」のTTSモデル更新を発表しました。今回のアップデートでは、感情表現の豊かさやプロンプトへの忠実性が大幅に向上し、文脈に応じたペース制御や複数話者による自然な対話生成が可能になりました。これらの新機能はGoogle AI Studioですぐに利用でき、開発者はより没入感のある音声コンテンツを効率的に制作できます。
今回の更新で最も注目すべき点は、表現力の飛躍的向上です。楽観的な口調から深刻なトーンまで、プロンプトでのスタイル指定に忠実な音声生成が可能になりました。また、文脈を理解して話す速度を調整する機能も追加され、物語の緊張感や説明の間合いを自然に表現できます。
ポッドキャストやインタビュー形式のコンテンツ制作に不可欠な、複数話者機能も改善されました。話者が切り替わる際も各キャラクターの声質が一貫して保たれます。さらに、24の対応言語すべてで独自のトーンやピッチを維持できるため、グローバルな多言語展開にも最適です。
新モデルはGoogle AI Studioですでに公開されており、旧モデルからの置き換えが推奨されています。AI音声プラットフォームのWondercraftなどは既に本機能を導入し、感情豊かな対話生成や詳細な音声編集機能を実現しており、市場での実用性が証明されています。
