Skip to main content
QUICK REVIEW

[論文レビュー] TEA-Bench: A Systematic Benchmarking of Tool-enhanced Emotional Support Dialogue Agent

Xingyu Sui, Yanyan Zhao|arXiv (Cornell University)|Jan 26, 2026
Topic Modeling被引用数 0
ひとこと要約

TEA-Benchは、ツール拡張された感情サポート対話エージェントを評価する初のインタラクティブベンチマークを導入し、ツール使用が grounding を改善し、容量依存的に幻覚を低減することを9つのLLMに渡って示します。

ABSTRACT

Emotional Support Conversation requires not only affective expression but also grounded instrumental support to provide trustworthy guidance. However, existing ESC systems and benchmarks largely focus on affective support in text-only settings, overlooking how external tools can enable factual grounding and reduce hallucination in multi-turn emotional support. We introduce TEA-Bench, the first interactive benchmark for evaluating tool-augmented agents in ESC, featuring realistic emotional scenarios, an MCP-style tool environment, and process-level metrics that jointly assess the quality and factual grounding of emotional support. Experiments on nine LLMs show that tool augmentation generally improves emotional support quality and reduces hallucination, but the gains are strongly capacity-dependent: stronger models use tools more selectively and effectively, while weaker models benefit only marginally. We further release TEA-Dialog, a dataset of tool-enhanced ESC dialogues, and find that supervised fine-tuning improves in-distribution support but generalizes poorly. Our results underscore the importance of tool use in building reliable emotional support agents.

研究の動機と目的

  • 感情的共感を超える grounded instrumental support を ESC(感情支援対話)で促進する。
  • TEA-Benchを開発し、外部ツールが多回対話における事実 grounding を可能にする方法を評価する。
  • 共感と事実性を評価するための現実的でツール grounded なシナリオとツール環境を構築する。
  • TEA-Dialog のデータセットと分析を提供し、ESC における一般化とツールの有効性を研究する。

提案手法

  • ExTES から派生した81個の TEA-Scenarios を作成し、潜在的な時空文脈を豊かにする。
  • マップベースの API でシナリオを grounding のための座標とタイムゾーンを取得して grounding を実現する。
  • 7つのカテゴリ(Reddit, Map, Utils, Weather, News, Wikipedia, Music)にまたがる31ツール MCP ベースの環境を構築する。
  • エージェントが応答を grounding するためにツールを選択的に呼び出せる対話的評価を定義する。
  • 対話履歴とツール出力に対して事実 grounding を検証する Hallucination Detection Module (HDM) を導入する。
  • grounded でツール強化型ESC対話の訓練・評価用データセット TEA-Dialog をリリースする。

実験結果

リサーチクエスチョン

  • RQ1ツール強化は、異なるモデル容量において ESC の共感品質と事実 grounding を改善するか。
  • RQ2モデル容量は grounding におけるツール使用の頻度と有効性にどう影響するか。
  • RQ3TEA-Dialog での訓練が分布内の性能と distribution shift 下での一般化にどう影響するか。
  • RQ4ツール使用がツール強化型ESCにおける幻覚低減とどう相関するか。

主な発見

  • ツール強化は一般にESCの品質を向上させ、評価されたモデル全体で幻覚を低減する。
  • ツール使用の利得は容量依存である:より強いモデルはツールをより効果的に活用する一方、弱いモデルは恩恵を受けにくい。
  • ツール使用と幻覚低減には正の関係があり、モデル規模によって効率が異なる。
  • TEA-Dialog に対する監視付きファインチューニングは分布内の共感を改善するが、一般化には必ずしも寄与せず、 distribution shift 下で幻覚を増大させる可能性がある。
  • TEA-Bench と TEA-Dialog は、ツールがいつどのように呼び出されるかを含むプロセスレベルの挙動分析を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。