OCR (光学文字認識)
読み: おーしーあーる(こうがくもじにんしき)
最終更新: 2026-06-30・AI PICKS編集部
定義
OCR(光学文字認識)とは、スキャン画像やPDFに含まれる文字を、機械が処理できるテキストデータへ変換する技術のこと。
OCR (光学文字認識)とは — 詳しく解説
OCRはOptical Character Recognitionの略で、紙文書・請求書・名刺・手書きメモ・スキャンPDFなど、画像として記録されたテキストをデジタルデータへ変換する技術。TesseractやGoogle Vision API、AWS Textractなどが代表的なエンジン。2026年現在、LLMのマルチモーダル化によりGPT-4oやGeminiが直接画像からテキスト抽出できるようになり、「OCR専用エンジン+LLM」という二段構成から「マルチモーダルLLM一本」への移行が実運用でも加速している。 現場での落とし穴は主に3点。①手書き・傾き・低解像度画像での精度劣化(日本語縦書きや複雑な表組みは特に注意)。②APIコストの見落とし:Google Vision APIは月1,000ページ無料だが超過後は1,000ページあたり約150円、大量処理では月数万円規模に膨らむ相場感がある。③RAGパイプラインとの統合コスト:OCR出力には改行・スペースのノイズが多く、chunking前の前処理ステップが必須で工数を食う。 AI PICKSの視点では、用途で使い分けを推奨する。定型帳票(請求書・領収書)はAWS TextractやAzure Form Recognizer、汎用PDFはpdf-ai系SaaSが安価で導入しやすく、手書き・非定型ドキュメントはマルチモーダルLLMへ直接投げる方が精度と工数のバランスが優れている。月処理量1万ページ未満なら専用OCR APIより汎用LLM Vision一本を選ぶ方がトータルコストで有利になるケースが多い。
OCR (光学文字認識)の使用例
- 請求書PDFをOCRでテキスト化し、金額・取引先名をLLMで構造化抽出→会計ソフトへ自動連携するRAGパイプラインの構築事例。
- スキャン済み契約書をGPT-4o Visionに直接送り「当事者名・期間・金額をJSON形式で抽出せよ」と指示するプロンプト例。
OCR (光学文字認識)に関連するAIツール
関連用語
「RAG・検索拡張」の他の用語
Retrieval-Augmented Generation。 社内資料や外部 DB を検索してから AI に答えさせる仕組み。
文章や画像を 数値ベクトルに変換する技術。 類似度検索や RAG の基礎。
出典付きで回答する AI 検索エンジン。 リサーチ業務で従来検索を置き換える。
Google 検索の上位に AI が回答を提示する 「AI Overviews」 や Perplexity 等の新世代検索。
Embedding (数値ベクトル) を高速に類似度検索するための専用 DB。 Pinecone / Qdrant / Weaviate が代表。
NotebookLMとはGoogleが提供するRAGベースのAIリサーチアシスタントのこと。ユーザーがアップロードした文書のみを情報源として回答を生成するため、ハルシネーションを大幅に抑制できる。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ