AI PICKS
AI用語辞典LLM / 言語モデル

VLM (視覚言語モデル)

読み: ぶいえるえむ

最終更新: 2026-06-29・AI PICKS編集部

定義

VLMとは、テキストと画像・動画を同時に理解・処理できる視覚言語モデルのこと。画像説明の自動生成や視覚的質問応答(VQA)を可能にし、2026年現在はGPT-4oやGeminiなど主要LLMの標準機能として定着している。

VLM (視覚言語モデル)とは — 詳しく解説

VLM(Visual Language Model)は、画像・動画などの視覚情報と自然言語を統合して処理するマルチモーダルモデルの総称。GPT-4o、Gemini 2.5 Pro、Claude 3.5 Sonnetがいずれも視覚理解に対応しており、2026年現在、VLM機能は主要LLMのデファクトスタンダードとなった。 実運用での最大の落とし穴は、ハルシネーションが画像入力でも発生する点だ。手書き文字の誤認識、グラフ数値の読み誤り、類似製品の混同などは現場で頻出するミスであり、書類OCRや医療画像など精度が求められる用途では必ずヒューマンレビューを挟む設計が必要になる。 コスト感については、テキストのみのAPIコールに対して画像入力は2〜5倍のトークン消費となる相場感があり、高解像度画像を大量処理するシステムでは月額費用が想定外に膨らみやすい。解像度の圧縮やタイル分割数の制限といったチューニングが実務では欠かせない。 ツール選定では、汎用画像理解はGemini 2.5 Pro、精度重視の文書解析はClaude 3.7 Sonnet、映像分析にはGoogle Veo 2が現場での有力な選択肢となっている。

VLM (視覚言語モデル)の使用例

  • レシート画像をVLMに送り「品目・金額を読み取りカテゴリ別に集計して」と指示すると、OCRと分類を一度の呼び出しで完結できる。
  • 商品画像とともに「競合との差別化ポイントを3つ挙げて」と送ると、視覚的特徴を踏まえたコピー案が即座に得られる。

VLM (視覚言語モデル)に関連するAIツール

関連用語

LLM / 言語モデル」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・302語以上を体系的に整理しています

辞典トップへ