VLM (視覚言語モデル)
読み: ぶいえるえむ
最終更新: 2026-06-29・AI PICKS編集部
定義
VLMとは、テキストと画像・動画を同時に理解・処理できる視覚言語モデルのこと。画像説明の自動生成や視覚的質問応答(VQA)を可能にし、2026年現在はGPT-4oやGeminiなど主要LLMの標準機能として定着している。
VLM (視覚言語モデル)とは — 詳しく解説
VLM(Visual Language Model)は、画像・動画などの視覚情報と自然言語を統合して処理するマルチモーダルモデルの総称。GPT-4o、Gemini 2.5 Pro、Claude 3.5 Sonnetがいずれも視覚理解に対応しており、2026年現在、VLM機能は主要LLMのデファクトスタンダードとなった。 実運用での最大の落とし穴は、ハルシネーションが画像入力でも発生する点だ。手書き文字の誤認識、グラフ数値の読み誤り、類似製品の混同などは現場で頻出するミスであり、書類OCRや医療画像など精度が求められる用途では必ずヒューマンレビューを挟む設計が必要になる。 コスト感については、テキストのみのAPIコールに対して画像入力は2〜5倍のトークン消費となる相場感があり、高解像度画像を大量処理するシステムでは月額費用が想定外に膨らみやすい。解像度の圧縮やタイル分割数の制限といったチューニングが実務では欠かせない。 ツール選定では、汎用画像理解はGemini 2.5 Pro、精度重視の文書解析はClaude 3.7 Sonnet、映像分析にはGoogle Veo 2が現場での有力な選択肢となっている。
VLM (視覚言語モデル)の使用例
- レシート画像をVLMに送り「品目・金額を読み取りカテゴリ別に集計して」と指示すると、OCRと分類を一度の呼び出しで完結できる。
- 商品画像とともに「競合との差別化ポイントを3つ挙げて」と送ると、視覚的特徴を踏まえたコピー案が即座に得られる。
VLM (視覚言語モデル)に関連するAIツール
関連用語
「LLM / 言語モデル」の他の用語
Artificial Intelligence の略。人間の知能をコンピュータで再現する技術全般を指す。
Large Language Model の略。 膨大なテキストで学習した文章生成 AI。 ChatGPT / Claude / Gemini が代表例。
AI がそれっぽい嘘をつく現象。 学習データに無い情報を推測で生成してしまう。
AI が一度に扱える文章の長さ。 トークン数で表現される (例: Claude Opus 4.7 は 1M トークン)。
AI が扱う文字のかたまり。 日本語は 1 文字 ≒ 1 トークン、 英語は単語 ≒ 1 トークン。 料金計算の単位でもある。
文章・画像・音声・動画 を新規に作り出す AI 技術。 ChatGPT 以降の AI ブームの主役。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ