Google、あらゆる入力から動画を生成するGemini Omniを発表

Gemini Omniの概要

テキスト・画像音声動画を統合入力
単一モデル動画を生成・編集
自然言語の指示で会話的に編集可能
物理法則や文化的知識に基づく高品質出力

提供形態と料金

初期モデルOmni Flashを本日公開
Geminiアプリ・YouTube Shorts・Flowで利用可
API提供は数週間以内を予定

安全性と企業利用

SynthID電子透かしを全動画に付与
デジタルアバター機能に本人認証を導入
詳細を読む

Googleは2026年5月19日、年次開発者会議Google I/Oで、あらゆる入力から動画を生成できる新しいマルチモーダルモデル「Gemini Omni」を発表しました。CEOのサンダー・ピチャイ氏は「あらゆる入力からあらゆるコンテンツを生成できる」と説明し、テキスト予測から現実のシミュレーションへとAIが進化する次の段階だと位置づけています。

Gemini Omniは、テキスト・画像音声動画を組み合わせて入力し、単一のモデルで高品質な動画を出力できます。従来のように複数の専門モデルを連携させるのではなく、1つのモデル内で複数のモダリティを横断的に推論するため、一貫性のある編集が可能です。自然言語で指示を重ねる会話的な動画編集に対応し、前の指示を記憶したまま場面を発展させることができます。

最初のモデルとなるGemini Omni Flashは本日からGeminiアプリ、YouTube Shorts、動画編集ツールFlowで提供が開始されました。現時点では10秒の動画生成に対応しており、今後より長い動画にも対応予定です。AI Plus(月額20ドル)以上のサブスクリプションプランで利用でき、開発者・企業向けのAPI提供は数週間以内に予定されています。上位モデルのOmni Proの公開時期は未定です。

企業向けの活用領域は幅広く、マーケティング動画の量産、社内研修コンテンツの作成、製品デモの自動生成などが想定されています。また、ユーザー自身の声と姿を使うデジタルアバター機能も提供され、ディープフェイク防止のため録画と音声による本人認証が求められます。すべての生成動画にはGoogleSynthID電子透かしが埋め込まれ、AI生成コンテンツの検証が可能です。

競合環境としては、ByteDanceのSeedance、KuaishouのKling AI、英SynthesiaのAIアバターなどが存在します。GoogleNano Bananaに続くマルチモーダル統合の成果としてOmniを位置づけており、画像やオーディオの出力にも将来的に対応する計画です。企業の導入にあたっては、API公開後にデータガバナンスや利用規約を確認した上で本格運用に移行することが推奨されています。