[论文解读] TEA-Bench: A Systematic Benchmarking of Tool-enhanced Emotional Support Dialogue Agent
TEA-Bench 引入了首个交互式基准,用于评估工具增强的情感支持对话代理的能力,显示工具使用在九种大模型中以容量相关方式提升了对 grounding 的支持并减少了幻觉。
Emotional Support Conversation requires not only affective expression but also grounded instrumental support to provide trustworthy guidance. However, existing ESC systems and benchmarks largely focus on affective support in text-only settings, overlooking how external tools can enable factual grounding and reduce hallucination in multi-turn emotional support. We introduce TEA-Bench, the first interactive benchmark for evaluating tool-augmented agents in ESC, featuring realistic emotional scenarios, an MCP-style tool environment, and process-level metrics that jointly assess the quality and factual grounding of emotional support. Experiments on nine LLMs show that tool augmentation generally improves emotional support quality and reduces hallucination, but the gains are strongly capacity-dependent: stronger models use tools more selectively and effectively, while weaker models benefit only marginally. We further release TEA-Dialog, a dataset of tool-enhanced ESC dialogues, and find that supervised fine-tuning improves in-distribution support but generalizes poorly. Our results underscore the importance of tool use in building reliable emotional support agents.
研究动机与目标
- 在情感支持对话(ESC)中推动 grounded 的工具性支持,超越情感共情。
- 开发 TEA-Bench 以评估外部工具如何在多轮 ESC 中实现事实 grounding。
- 构建现实且 grounding 的场景和工具环境,用于评估同理心和事实性。
- 提供数据集(TEA-Dialog)和分析,以研究 ESC 中的泛化与工具有效性。
提出的方法
- 从 ExTES 派生并通过潜在时空上下文丰富 81 个 TEA-Scenarios。
- 通过基于地图的 API 进行场景 grounding,以获取坐标和时区用于 grounding。
- 在七个类别(Reddit、Map、Utils、Weather、News、Wikipedia、Music)构建一个 31-工具 MCP 基于的环境。
- 定义一个交互评估,代理可选择性调用工具来对回答进行 grounding。
- 引入幻觉检测模块(HDM),在对话历史和工具输出之间验证事实 grounding。
- 发布 TEA-Dialog,一组 grounding、工具增强的 ESC 对话数据集,供训练和评估使用。
实验结果
研究问题
- RQ1工具增强是否在不同模型容量下提升 ESC 的同情质量和事实 grounding?
- RQ2模型容量如何影响 grounding 中工具使用的频率和有效性?
- RQ3在 TEA-Dialog 上的训练对分布内性能和分布移位下的泛化有何影响?
- RQ4工具使用与在工具增强的 ESC 中减少幻觉之间的相关性如何?
主要发现
- 工具增强通常提升 ESC 质量并在评估的模型中减少幻觉。
- 工具使用的收益具有容量依赖性:更强的模型更有效地利用工具,而较弱的模型受益較少。
- 工具使用与减少幻觉之间存在正相关关系,但在不同模型规模上效率存在差异。
- 在 TEA-Dialog 上的有监督微调提高了分布内的同理心,但可能缺乏良好的泛化,在分布移位下可能增加幻觉。
- TEA-Bench 与 TEA-Dialog 使对过程级行为的分析成为可能,包括何时以及如何调用工具。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。