Googleは2026年5月に開催された開発者会議「Google I/O 2026」にて、動画の生成および編集に特化した新たなマルチモーダルAIモデル「Gemini Omni(ジェミニ・オムニ)」を発表した。
同社が「動画版のNano Banana」や「世界モデル」と表現するこの新モデルは、単に高精細な映像を出力するだけでなく、テキスト、画像、音声、動画をシームレスに横断・理解し、対話形式で高度な動画編集を行える点が最大の特徴である。
本記事では、先行して提供が開始された「Gemini Omni Flash」を中心に、その革新的な機能や従来の動画生成AI「Veo」との位置付けの違いについて解説する。
Gemini Omniの核心:「世界モデル」としての高い物理理解
従来の動画生成AIの多くは、ピクセルデータの統計的確率に基づいて次のフレームを予測・描写していた。そのため、カメラアングルが大きく変わった際に影の描写が歪んだり、秒数が経過するにつれて物体の構造や背景が破綻したりする課題(不気味の谷現象)が頻発していた。
これに対し、Gemini Omniは「世界モデル(World Model)」としての設計が組み込まれている。
- 物理法則のシミュレーション: 物体の質量、運動量、流体の動きなど、現実世界の物理的な挙動を内部的に理解している。
- 一貫した環境維持: 光の屈折や反射(グローバルイルミネーション)を自然に計算し、マルチターン(複数回)の編集を経ても、照明ロジックやキャラクターのアイデンティティ、背景の構造が一貫して維持される。
これにより、視聴者に対して視覚的な違和感を与えない、極めてリアリズムの高い動画生成が可能となった。
主な機能とユースケース
Gemini Omniは、プロンプト(自然言語)による指示を通じて、動画の「ゼロからの生成」から「既存動画の局所的な編集」までを包括的にサポートする。
1. 対話型マルチターン編集(ビデオリミックス)
一度出力した動画に対して、「カメラアングルを右上に変更して」「背景の天気を雨にして」といった追加の指示を会話形式で与えることができる。ゼロから動画を作り直す必要がなく、段階的にクリエイティブをブラッシュアップできるため、実際の映像制作現場のワークフローに非常に近い運用が可能である。
2. 素材や質感の自由な差し替え
Google I/O 2026のデモでは、白いメッシュ状のオブジェの質感を、指示一つで「カラフルな毛糸」「風船」「泡」へと瞬時に、かつ自然に変化させる実演が行われた。撮影済みの動画内にある特定のオブジェクトやキャラクターのディテール、テクスチャのみを変更・置換できる。
3. 映像・画像・音声の統合生成
テキストプロンプトだけでなく、既存の画像やBGM(音声データ)を複数組み合わせ、それらを完全にシンクロさせた一本の映像作品へと昇華させる能力を持つ。
「Gemini Omni」と「Veo」の違い
Googleにはすでに強力な動画生成モデルとして「Veo(ヴェオ)」(現行バージョンはVeo 3 / 3.1など)が存在する。これら2つのモデルは、用途とプラットフォームにおいて明確に棲み分けられている。
| 項目 | Veo(主要動画生成モデル) | Gemini Omni(次世代マルチモーダルモデル) |
|---|---|---|
| 主たる役割 | プロンプトから最高品質(最大4K)の動画を生成することに特化 | 動画の生成に加え、対話しながらの「編集・再考」に特化 |
| アプローチ | 決定的な高品質クリップの出力 | 構造や動きを維持したまま、継続的に演出・リミックス |
| コンセプト | 最高峰 of 映像出力エンジン | 映像の意味や文脈を理解する「世界モデル」 |
最高解像度での一発撮りや素材としてのクオリティを求める場合はVeoが適しており、ストーリーテリングや試行錯誤を伴う編集、インタラクティブな動画制作にはGemini Omniが適していると言える。
信頼性と安全性への配慮
生成AIによるディープフェイクや著作権侵害が懸念される中、Gemini Omniで出力・編集されたコンテンツには、Googleの電子透かし技術である「SynthID」および、コンテンツの来歴を記録する国際標準規格「C2PA Content Credentials」が自動的に付与される。
これらのメタデータはGeminiアプリ内で検証可能であり、今後はGoogle ChromeやGoogle検索上でも改ざんや生成の履歴を確認できる仕組みが導入される予定だ。
まとめと今後の展望
Gemini Omniの第一弾である「Gemini Omni Flash」は、GoogleのAIサブスクリプション(Google AI Plus、Pro、Ultra等)のユーザー向けに、映像制作ツール「Google Flow」やGeminiアプリを通じて既に順次提供が開始されている。
動画を「単に出力される固定物」から「会話を通じて継続的に演出できる可変物」へと変貌させたGemini Omniは、今後の広告クリエイティブ、教育用コンテンツ、映画の絵コンテ制作などの現場を大きく変革していく可能性を秘めている。今後のさらなるモデルアップデートとエコシステムへの統合に注目が集まる。









