Skip to main content
QUICK REVIEW

[論文レビュー] $τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Shunyu Yao, Noah Shinn|arXiv (Cornell University)|Jun 17, 2024
Semantic Web and Ontologies被引用数 5
ひとこと要約

本論文は、実世界ドメインにおけるツール・エージェント・ユーザー間の相互作用を評価するためのベンチマークを提案し、エージェントがユーザーの指導の下でツールを選択・交換・推論する方法に焦点を当てています。提供されたテキストは、完全な実験報告書というよりインタラクティブなトランスクリプトを主に示しています。

ABSTRACT

Existing benchmarks do not test language agents on their interaction with human users or ability to follow domain-specific rules, both of which are vital for deploying them in real world applications. We propose $τ$-bench, a benchmark emulating dynamic conversations between a user (simulated by language models) and a language agent provided with domain-specific API tools and policy guidelines. We employ an efficient and faithful evaluation process that compares the database state at the end of a conversation with the annotated goal state. We also propose a new metric (pass^k) to evaluate the reliability of agent behavior over multiple trials. Our experiments show that even state-of-the-art function calling agents (like gpt-4o) succeed on <50% of the tasks, and are quite inconsistent (pass^8 <25% in retail). Our findings point to the need for methods that can improve the ability of agents to act consistently and follow rules reliably.

研究の動機と目的

  • 実世界のタスクにおけるツール・エージェント・ユーザー間の相互作用をベンチマークする必要性を動機づける。
  • ツールの選択と交換を行う際のエージェントの意思決定を評価するベンチマークを定義する。
  • ユーザーの相互作用がツールの選択とタスクの成果に与える影響を評価する。
  • 複数ドメイン設定におけるツールの適合性とユーザー満足度を追跡・改善するためのフレームワークを提供する。

提案手法

  • 実世界ドメインを横断するツール・エージェント・ユーザー間の相互作用のベンチマークフレームワークを提案する。
  • ツール選択、交換、ユーザー確認済みアクションを含む相互作用ワークフローを説明する。
  • ツールの適合性、ユーザー満足度、成果品質の評価基準を概説する。

実験結果

リサーチクエスチョン

  • RQ1実世界のタスクにおけるツール・エージェント・ユーザー間の相互作用を効果的にベンチマークするにはどうすればよいか?
  • RQ2エージェントによるツール選択と交換の意思決定の質を最も適切に捉える基準は何か?
  • RQ3複数ドメインの状況で、ユーザー入力はエージェントの選択と全体的なタスク成功にどのように影響するか?
  • RQ4ドメインを横断して適合性と満足度を堅牢に測定できる指標は何か?

主な発見

  • 提供された抜粋は主にインタラクションのトランスクリプトを含んでおり、明示的な定量的結果を提示していません。
  • 提供テキストには明確に報告されたベンチマーク結果や指標は示されていません。
  • ツールの選択と交換プロセスの証拠はありますが、統合された評価結果はありません。
  • このテキストには正式な実験設定や比較分析が含まれていません。
  • したがって、与えられたソーススニペットから具体的な数値的所見を抽出することはできません。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。