TTFT (初回トークンまでの時間)
読み: ティーティーエフティー(しょかいとーくんまでのじかん)
最終更新: 2026-06-26・AI PICKS編集部
定義
TTFTとはLLMへのリクエスト送信から最初のトークンが返ってくるまでの時間のこと。ユーザーが「反応している」と体感する待ち時間を左右する、応答速度の核心指標。
TTFT (初回トークンまでの時間)とは — 詳しく解説
TTFT(Time To First Token)とは、APIリクエスト送信から最初の応答トークンが届くまでのレイテンシ指標。スループット(1秒あたり生成トークン数)と並び、LLMの体感速度を左右する主要指標。 チャットUIでは500ms以下が快適ラインとされ、2秒超で離脱率が上がる。2026年の実運用では、同じモデルでもプロバイダーや時間帯でTTFTが2〜3倍変動することは珍しくない。 現場での落とし穴はコンテキスト長との相関だ。システムプロンプトが肥大するほどKVキャッシュ構築コストでTTFTが膨らむ。AI PICKSの評価では2,000トークン超えで体感TTFTが1.5倍になるケースを確認。RAGシステムでは取得文書をそのまま埋め込む設計がボトルネックになりやすく、要約圧縮とキャッシュ戦略がセットで必要になる。 相場感は2026年6月時点でGPT-4o系200〜800ms、Claude系150〜600ms、Gemini系100〜500ms。TTFTを短縮したい場合はBatch APIを避け、ストリーミング受信を必ず有効化すること。
TTFT (初回トークンまでの時間)の使用例
- Claude APIでチャットボット構築中、TTFT 1.5秒がネックに。システムプロンプトを1,500トークンに削ったところ600msに改善し、ユーザー離脱率が18%低下した。
- RAGで社内文書検索システムを実装。取得チャンクをそのままプロンプトに入れるとTTFTが2秒超え。要約APIで前処理したら800msに短縮できた。
TTFT (初回トークンまでの時間)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ