AI PICKS
AI用語辞典LLM / 言語モデル

トークナイザー (Tokenizer)

読み: とーくないざー

最終更新: 2026-06-30・AI PICKS編集部

定義

トークナイザーとはテキストをLLMが処理できる最小単位(トークン)に分割するアルゴリズムのこと。日本語は英語の2〜3倍のトークンを消費しやすく、APIコストや文脈長に直接影響する。

トークナイザー (Tokenizer)とは — 詳しく解説

トークナイザーは、自然言語テキストをLLMが扱える「トークン」の列に変換するモジュール。GPT系はBPE(Byte Pair Encoding)、LLaMA系はSentencePieceなど、モデルごとに独自の方式を採用しており、同じ文章でもモデルが変わればトークン数が異なる。 2026年現在の実運用で最大の落とし穴は日本語コストだ。英語では1単語≒1トークンに収まるケースが多いが、日本語は1文字が複数トークンに分解されることも多く、同じ内容でも英語比2〜3倍のトークン数になる事例が珍しくない。Claude 3.5 Sonnetの入力は1Mトークンあたり$3が相場感だが、日本語ヘビーな現場では月額費用が想定の2〜3倍に膨らむこともある。 現場での選び方として重要なのは「利用するAPIのトークナイザーと事前計算ロジックを一致させる」ことだ。AnthropicもOpenAIも公式のトークンカウントAPIを提供しており、長文プロンプトやRAGのチャンクを設計する前に必ず見積もりを挟む運用が基本になっている。RAGでは文字数基準のチャンク分割だと意味が中途で切れた破断チャンクがヒットしやすく、トークン境界を意識した分割に切り替えると精度が改善するAI PICKS実例もある。

トークナイザー (Tokenizer)の使用例

  • 日本語プロンプト300文字をClaude APIに送ったら想定の3倍のトークンを消費した。事前にトークナイザーでカウントすれば過剰コストを防げる。
  • RAGのチャンク設定を文字数基準からトークン数基準に変更したら検索精度が向上した。トークナイザーを挟んだ前処理が改善の鍵だった。

トークナイザー (Tokenizer)に関連するAIツール

関連用語

LLM / 言語モデル」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ