トークナイザー (Tokenizer)
読み: とーくないざー
最終更新: 2026-06-30・AI PICKS編集部
定義
トークナイザーとはテキストをLLMが処理できる最小単位(トークン)に分割するアルゴリズムのこと。日本語は英語の2〜3倍のトークンを消費しやすく、APIコストや文脈長に直接影響する。
トークナイザー (Tokenizer)とは — 詳しく解説
トークナイザーは、自然言語テキストをLLMが扱える「トークン」の列に変換するモジュール。GPT系はBPE(Byte Pair Encoding)、LLaMA系はSentencePieceなど、モデルごとに独自の方式を採用しており、同じ文章でもモデルが変わればトークン数が異なる。 2026年現在の実運用で最大の落とし穴は日本語コストだ。英語では1単語≒1トークンに収まるケースが多いが、日本語は1文字が複数トークンに分解されることも多く、同じ内容でも英語比2〜3倍のトークン数になる事例が珍しくない。Claude 3.5 Sonnetの入力は1Mトークンあたり$3が相場感だが、日本語ヘビーな現場では月額費用が想定の2〜3倍に膨らむこともある。 現場での選び方として重要なのは「利用するAPIのトークナイザーと事前計算ロジックを一致させる」ことだ。AnthropicもOpenAIも公式のトークンカウントAPIを提供しており、長文プロンプトやRAGのチャンクを設計する前に必ず見積もりを挟む運用が基本になっている。RAGでは文字数基準のチャンク分割だと意味が中途で切れた破断チャンクがヒットしやすく、トークン境界を意識した分割に切り替えると精度が改善するAI PICKS実例もある。
トークナイザー (Tokenizer)の使用例
- 日本語プロンプト300文字をClaude APIに送ったら想定の3倍のトークンを消費した。事前にトークナイザーでカウントすれば過剰コストを防げる。
- RAGのチャンク設定を文字数基準からトークン数基準に変更したら検索精度が向上した。トークナイザーを挟んだ前処理が改善の鍵だった。
トークナイザー (Tokenizer)に関連するAIツール
関連用語
「LLM / 言語モデル」の他の用語
Artificial Intelligence の略。人間の知能をコンピュータで再現する技術全般を指す。
Large Language Model の略。 膨大なテキストで学習した文章生成 AI。 ChatGPT / Claude / Gemini が代表例。
AI がそれっぽい嘘をつく現象。 学習データに無い情報を推測で生成してしまう。
AI が一度に扱える文章の長さ。 トークン数で表現される (例: Claude Opus 4.7 は 1M トークン)。
AI が扱う文字のかたまり。 日本語は 1 文字 ≒ 1 トークン、 英語は単語 ≒ 1 トークン。 料金計算の単位でもある。
文章・画像・音声・動画 を新規に作り出す AI 技術。 ChatGPT 以降の AI ブームの主役。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ