Question 1

τ-bench (エージェント評価ベンチ)とは何ですか？

Accepted Answer

τ-benchとはAIエージェントのツール使用・多段階タスク遂行能力を、現実に近いシナリオで統計的に評価するベンチマークのこと。 τ-bench（タウ・ベンチ）は、Sierra AIが2024年に発表したAIエージェント評価ベンチマーク。ユーザーとエージェントが複数回やり取りしながらツールを呼び出し、カスタマーサービス業務（小売・航空ドメイン）を完遂できるかを測定する。単発回答の精度を問う従来型ベンチとは異なり、「同一タスクをk回試行して何回成功するか」を示すpass^k指標（τ-success）を採用し、一発当たり系モデル

Question 2

τ-bench (エージェント評価ベンチ)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。τ-success 60%のエージェントにpass^5を要求すると成功率は0.6^5≒7.8%まで落ちる——連続成功が前提の業務への採用可否を判断する目安として使える。 / 新モデル導入前にτ-benchのretailドメインで50試行し、既存モデルを5pt上回った場合のみ本番切り替えする検証フローが現場の標準になりつつある。詳細な解説はτ-bench (エージェント評価ベンチ)の詳細ページをご覧ください。

Question 3

τ-bench (エージェント評価ベンチ)とAI エージェントの違いは何ですか？

Accepted Answer

τ-bench (エージェント評価ベンチ)とAI エージェントはAI用語として関連していますが、役割や使用場面が異なります。τ-bench (エージェント評価ベンチ)はτ-benchとはAIエージェントのツール使用・多段階タスク遂行能力を、現実に近いシナリオで統計的に評価するベンチマークのこと。詳しくは関連用語の解説ページをご参照ください。

τ-bench (エージェント評価ベンチ)

定義

τ-bench (エージェント評価ベンチ)とは — 詳しく解説

τ-bench (エージェント評価ベンチ)の使用例

τ-bench (エージェント評価ベンチ)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか