τ-bench (エージェント評価ベンチ)
読み: たうべんち
最終更新: 2026-06-27・AI PICKS編集部
定義
τ-benchとはAIエージェントのツール使用・多段階タスク遂行能力を、現実に近いシナリオで統計的に評価するベンチマークのこと。
τ-bench (エージェント評価ベンチ)とは — 詳しく解説
τ-bench(タウ・ベンチ)は、Sierra AIが2024年に発表したAIエージェント評価ベンチマーク。ユーザーとエージェントが複数回やり取りしながらツールを呼び出し、カスタマーサービス業務(小売・航空ドメイン)を完遂できるかを測定する。単発回答の精度を問う従来型ベンチとは異なり、「同一タスクをk回試行して何回成功するか」を示すpass^k指標(τ-success)を採用し、一発当たり系モデルと真に安定したエージェントを明確に区別できる点が特徴だ。 2026年の実運用では、GPT-4oやClaude 3.7 Sonnetクラスのモデルでもτ-successは40〜70%程度に留まることが多く、「デモ映えするが本番で外れる」問題を可視化するベンチとして現場での注目度が高い。AI PICKSが確認した事例でも「ローカル高スコア→本番で半減」のパターンが頻出している。落とし穴として多いのは、テストシナリオを単純化しすぎてスコアが実態より高く出ること。正確な評価には本番データに近いツール定義と状態管理コードが必要で、セットアップに1〜3週間かかる。相場感として十分な試行数を回すAPIコストだけで数万円規模になるため、スモールスタートは難しい。現時点ではエージェント信頼性の業界標準ベンチとして扱われており、OpenAI・Anthropicも参照指標として公表している。
τ-bench (エージェント評価ベンチ)の使用例
- τ-success 60%のエージェントにpass^5を要求すると成功率は0.6^5≒7.8%まで落ちる——連続成功が前提の業務への採用可否を判断する目安として使える。
- 新モデル導入前にτ-benchのretailドメインで50試行し、既存モデルを5pt上回った場合のみ本番切り替えする検証フローが現場の標準になりつつある。
τ-bench (エージェント評価ベンチ)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ