AI PICKS
AI用語辞典評価指標

レイテンシ (Latency)

読み: れいてんし

最終更新: 2026-06-25・AI PICKS編集部

定義

レイテンシとは、AIモデルにリクエストを送信してから最初のレスポンスが返るまでの応答時間のこと。

レイテンシ (Latency)とは — 詳しく解説

レイテンシは、AIシステムの体験品質を左右する最重要指標の一つ。一般的には「Time to First Token(TTFT)」と「Time to Last Token(TTLT)」の2軸で計測される。TTFTはストリーミング体験に直結し、ユーザーが「動いている」と感じるまでの時間を表す。 2026年の実運用では、モデルの賢さとレイテンシはトレードオフの関係にある。GPT-5やClaude Opus級のフロンティアモデルは推論精度が高い反面、TTFT 2〜5秒が相場感。一方、Haiku・Flash系の軽量モデルは500ms以下を実現できる。チャットボットや音声AIなど「リアルタイム性が命」の用途では、精度よりもレイテンシ優先の判断が現場での定石となっている。 落とし穴として多いのが「プロバイダーの公称値と実測値のギャップ」。負荷時間帯や地理的なエッジ距離によって2〜3倍の差が出ることも珍しくない。AI PICKSでの検証でも、同一モデルでも時間帯によりTTFTが大きく変動する事例を確認している。コスト面では、低レイテンシ特化のAPIプランは標準比1.5〜2倍の料金設定が多く、用途に応じた使い分けが重要だ。

レイテンシ (Latency)の使用例

  • 音声AIで会話が不自然に感じる原因の多くはレイテンシ。TTFTを1秒以下に抑えることで体験が激変する。
  • RAGシステム構築時はベクトル検索の処理時間もレイテンシに加算されるため、インデックス設計が重要になる。

レイテンシ (Latency)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ