AI PICKS
AI用語辞典RAG・検索拡張

OCR (光学文字認識)

読み: おーしーあーる(こうがくもじにんしき)

最終更新: 2026-06-30・AI PICKS編集部

定義

OCR(光学文字認識)とは、スキャン画像やPDFに含まれる文字を、機械が処理できるテキストデータへ変換する技術のこと。

OCR (光学文字認識)とは — 詳しく解説

OCRはOptical Character Recognitionの略で、紙文書・請求書・名刺・手書きメモ・スキャンPDFなど、画像として記録されたテキストをデジタルデータへ変換する技術。TesseractやGoogle Vision API、AWS Textractなどが代表的なエンジン。2026年現在、LLMのマルチモーダル化によりGPT-4oやGeminiが直接画像からテキスト抽出できるようになり、「OCR専用エンジン+LLM」という二段構成から「マルチモーダルLLM一本」への移行が実運用でも加速している。 現場での落とし穴は主に3点。①手書き・傾き・低解像度画像での精度劣化(日本語縦書きや複雑な表組みは特に注意)。②APIコストの見落とし:Google Vision APIは月1,000ページ無料だが超過後は1,000ページあたり約150円、大量処理では月数万円規模に膨らむ相場感がある。③RAGパイプラインとの統合コスト:OCR出力には改行・スペースのノイズが多く、chunking前の前処理ステップが必須で工数を食う。 AI PICKSの視点では、用途で使い分けを推奨する。定型帳票(請求書・領収書)はAWS TextractやAzure Form Recognizer、汎用PDFはpdf-ai系SaaSが安価で導入しやすく、手書き・非定型ドキュメントはマルチモーダルLLMへ直接投げる方が精度と工数のバランスが優れている。月処理量1万ページ未満なら専用OCR APIより汎用LLM Vision一本を選ぶ方がトータルコストで有利になるケースが多い。

OCR (光学文字認識)の使用例

  • 請求書PDFをOCRでテキスト化し、金額・取引先名をLLMで構造化抽出→会計ソフトへ自動連携するRAGパイプラインの構築事例。
  • スキャン済み契約書をGPT-4o Visionに直接送り「当事者名・期間・金額をJSON形式で抽出せよ」と指示するプロンプト例。

OCR (光学文字認識)に関連するAIツール

関連用語

RAG・検索拡張」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ