何が起きたか
GoogleはGemini API File Search をマルチモーダル化し、カスタムメタデータとページ単位の引用を導入した。Gemini Embedding 2 を土台に、画像、音声、動画、文書をまたいで意味をつなげる。RAG が「テキストを探す仕組み」から「根拠を追える仕組み」に進んだ。
何が変わるか
この更新の価値は、検索の答えが速いことではなく、後でたどれることにある。ページ引用があると、出力の裏取りがしやすくなる。マルチモーダル対応があると、現実の資料の混在に耐えやすい。つまり、AIの出力がレビュー可能になる。
現場への波及
法務、研究、制作、企画、サポートなど、資料が複数形式で散らばる仕事ほど効く。画像付きの提案、動画資料、会議録、スキャン文書を同じ検索面で扱えれば、情報収集が速くなるだけでなく、説明責任も上がる。
注意点
ただし、根拠が追えることは万能ではない。引用ページがあっても、文脈を間違えれば誤読は起きる。マルチモーダルRAGは答えを出す装置というより、確認を支える装置として使うほうが向いている。
見方
動画AIが話題でも、実務を変えるのは基盤だ。生成する前に、探せること。そこを整えた会社が、後で強い。今回のGoogleの更新は、その原則をはっきり示した。
具体例
たとえば、製品提案で過去の画像素材、議事録、仕様書を横断して検索できると、手戻りが減る。動画や音声が入っても同じで、どの発話がどのページと結びつくか分かれば、レビューはずっとやりやすい。
検索の価値は、見つける速さだけではない。あとで説明できるか、誰かに渡せるか、間違いを追跡できるかが大きい。そこまで整って初めて、RAG は業務の道具になる。
Google の File Search は、派手な生成より地味な確認を強くした。実務ではそちらのほうが効くことが多い。