AI PICKS
AI用語辞典RAG・検索拡張

マルチモーダルRAG (Multimodal RAG)

読み: まるちもーだるらぐ

最終更新: 2026-06-30・AI PICKS編集部

定義

マルチモーダルRAGとは、テキストだけでなく画像・音声・動画なども検索・参照対象に含めた、RAGの拡張手法のこと。

マルチモーダルRAG (Multimodal RAG)とは — 詳しく解説

マルチモーダルRAGは、従来のテキスト検索に加えて画像・表・図面・音声・動画などをベクトル化し、ユーザーの質問に最適なモダリティを組み合わせて回答生成に活用するアーキテクチャ。製品マニュアルの図解やECの商品画像をそのまま検索対象にできるため、テキスト単体RAGでは拾えない情報の取得が可能になる。 2026年の実運用では「画像ベクトル化コスト」と「精度のトレードオフ」が最大の課題。画像埋め込みモデル(CLIP系)はテキスト埋め込みと空間が異なるため、単純に混在させると検索精度が落ちる「モダリティギャップ問題」が発生しやすい。現場での選び方としては、①テキスト抽出で代替できる資料は従来RAGで十分、②設計図・医療画像・商品写真など視覚情報が本質的な場合のみマルチモーダル化する、という方針が相場感として定着している。 AI PICKSで確認した事例では、Amazon BedrockとClaudeを組み合わせた構成が国内企業での採用実績が多く、初期構築コストは100〜500万円規模が多い。音声・動画モダリティを追加するとレイテンシ管理が重要になる点も留意が必要。

マルチモーダルRAG (Multimodal RAG)の使用例

  • 製品カタログPDFに含まれる仕様表の画像をClaude 3に渡し、寸法を自動抽出してRAGインデックスに登録する構成。
  • 会議録音をAssemblyAIで文字起こし後、スライド画像と紐づけてマルチモーダルRAGで横断検索可能にするパイプライン。

マルチモーダルRAG (Multimodal RAG)に関連するAIツール

関連用語

RAG・検索拡張」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ