トークン毎秒 (スループット)
読み: とーくんまいびょう
最終更新: 2026-06-25・AI PICKS編集部
定義
トークン毎秒 (スループット) とは、LLM が1秒間に生成・処理できるトークン数を示す性能指標のこと。値が大きいほど応答が速く、リアルタイム用途や大量一括処理に向く。
トークン毎秒 (スループット)とは — 詳しく解説
トークン毎秒 (TPS: Tokens Per Second) は LLM の推論速度を定量化する重要指標で、「生成 TPS」 (出力速度) と「処理 TPS」 (入力処理速度) の2種類がある。業界標準では 20〜50 TPS 程度が「快適な応答感」の目安とされ、音声 AI やリアルタイムコード補完では 100 TPS 以上が事実上必要になる。 2026年時点の実運用では、クラウド API の TPS はモデルサイズ・同時リクエスト数・リージョンによって大きくぶれる。AI PICKS の検証では、同一モデルでも混雑時間帯には平常の 1/3 以下に落ちるケースが確認されており、TPS を SLA として明示しているプロバイダーは少数派だ。コスト面では高 TPS を確保しようとすると「専用スループット枠」の追加費用が発生し、従量課金との差が月数万〜数十万円になることもある。 現場での選び方の相場感: チャットボット・テキスト生成系は 30〜60 TPS で十分、音声 AI やリアルタイム翻訳は 100 TPS 以上が必須。また TPS 単体ではなく「最初のトークンが届くまでの遅延 (TTFT)」も合わせて評価することが重要で、TPS が高くても TTFT が長ければ体感速度は改善しない。
トークン毎秒 (スループット)の使用例
- 音声 AI では TPS 100 以上を確保しないと会話が途切れ途切れになるため、API 選定時に混雑時の最低 TPS を必ず確認する。
- 月 1,000 万トークン超のバッチ処理では、専用スループット枠 (Provisioned Throughput) で TPS を固定しコスト安定を図る設計が定石。
トークン毎秒 (スループット)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ