レイテンシ (Latency)
読み: れいてんし
最終更新: 2026-06-25・AI PICKS編集部
定義
レイテンシとは、AIモデルにリクエストを送信してから最初のレスポンスが返るまでの応答時間のこと。
レイテンシ (Latency)とは — 詳しく解説
レイテンシは、AIシステムの体験品質を左右する最重要指標の一つ。一般的には「Time to First Token(TTFT)」と「Time to Last Token(TTLT)」の2軸で計測される。TTFTはストリーミング体験に直結し、ユーザーが「動いている」と感じるまでの時間を表す。 2026年の実運用では、モデルの賢さとレイテンシはトレードオフの関係にある。GPT-5やClaude Opus級のフロンティアモデルは推論精度が高い反面、TTFT 2〜5秒が相場感。一方、Haiku・Flash系の軽量モデルは500ms以下を実現できる。チャットボットや音声AIなど「リアルタイム性が命」の用途では、精度よりもレイテンシ優先の判断が現場での定石となっている。 落とし穴として多いのが「プロバイダーの公称値と実測値のギャップ」。負荷時間帯や地理的なエッジ距離によって2〜3倍の差が出ることも珍しくない。AI PICKSでの検証でも、同一モデルでも時間帯によりTTFTが大きく変動する事例を確認している。コスト面では、低レイテンシ特化のAPIプランは標準比1.5〜2倍の料金設定が多く、用途に応じた使い分けが重要だ。
レイテンシ (Latency)の使用例
- 音声AIで会話が不自然に感じる原因の多くはレイテンシ。TTFTを1秒以下に抑えることで体験が激変する。
- RAGシステム構築時はベクトル検索の処理時間もレイテンシに加算されるため、インデックス設計が重要になる。
レイテンシ (Latency)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ