[논문 리뷰] TEA-Bench: A Systematic Benchmarking of Tool-enhanced Emotional Support Dialogue Agent
TEA-Bench는 도구 보강된 감정 지원 대화 에이전트를 평가하기 위한 최초의 인터랙티브 벤치마크를 도입하며, 도구 사용이 grounding을 개선하고 9개의 LLM에 걸쳐 용량 의존적으로 허위 진술(hallucination)을 감소시킨다는 것을 보여준다.
Emotional Support Conversation requires not only affective expression but also grounded instrumental support to provide trustworthy guidance. However, existing ESC systems and benchmarks largely focus on affective support in text-only settings, overlooking how external tools can enable factual grounding and reduce hallucination in multi-turn emotional support. We introduce TEA-Bench, the first interactive benchmark for evaluating tool-augmented agents in ESC, featuring realistic emotional scenarios, an MCP-style tool environment, and process-level metrics that jointly assess the quality and factual grounding of emotional support. Experiments on nine LLMs show that tool augmentation generally improves emotional support quality and reduces hallucination, but the gains are strongly capacity-dependent: stronger models use tools more selectively and effectively, while weaker models benefit only marginally. We further release TEA-Dialog, a dataset of tool-enhanced ESC dialogues, and find that supervised fine-tuning improves in-distribution support but generalizes poorly. Our results underscore the importance of tool use in building reliable emotional support agents.
연구 동기 및 목표
- 감정 지원 대화(ESC)에서 정서적 공감 그 이상으로 근거 있는 도구적 지원을 촉진한다.
- TEA-Bench를 개발하여 외부 도구가 다회 차 ESC에서 사실상 근거를 확보하는 방식을 평가한다.
- 현실적이고 도구 기반 시나리오와 도구 환경을 구축하여 공감성과 사실성을 평가한다.
- 데이터셋(TEA-Dialog)과 ESC에서의 일반화 및 도구 효율성 연구 분석을 제공한다.
제안 방법
- ExTES에서 파생된 81 TEA-Scenarios를 생성하고 숨겨진 시공간 맥락으로 풍부하게 한다.
- 좌표와 표준시를 얻기 위해 지도 기반 API를 통해 시나리오를 grounding한다.
- 7개 카테고리(Reddit, Map, Utils, Weather, News, Wikipedia, Music)에 걸친 31-tool MCP 기반 환경을 구축한다.
- 응답의 grounding을 위해 에이전트가 도구를 선택적으로 호출할 수 있는 대화형 평가를 정의한다.
- 대화 기록 및 도구 출력에 따른 사실적 grounding을 검증하는 Hallucination Detection Module(HDM)을 도입한다.
- 학습 및 평가를 위한 근거 있는 도구 강화 ESC 대화 데이터셋 TEA-Dialog를 공개한다.
실험 결과
연구 질문
- RQ1도구 보강이 다양한 모델 용량에 걸쳐 ESC의 공감 품질과 사실 채 grounding을 향상시키는가?
- RQ2모델 용량이 grounding에서 도구 사용의 빈도와 효과성에 어떤 영향을 미치는가?
- RQ3TEA-Dialog 학습이 배포 내 성능 및 분포 시프트 하에서의 일반화에 어떤 영향을 미치는가?
- RQ4도구 사용이 도구 강화 ESC에서 환각 완화와 어떤 상관관계가 있는가?
주요 결과
- 도구 보강은 일반적으로 ESC 품질을 향상시키고 평가된 모델 전반에 걸쳐 환각을 감소시킨다.
- 도구 사용의 이득은 용량 의존적이다: 더 강한 모델이 도구를 더 효과적으로 활용하는 반면, 약한 모델은 덜 이점이 있다.
- 도구 사용과 환각 감소 사이에 양의 상관관계가 있으며, 모델 규모에 따라 효율 차이가 있다.
- TEA-Dialog에 대한 감독 학습 미세조정은 배포 내 공감성을 향상시키지만 일반화가 잘 되지 않을 수 있고 분포 시프트 하에서 환각을 증가시킬 수 있다.
- TEA-Bench와 TEA-Dialog는 도구가 호출되는 시점과 방식 등 프로세스 수준의 행동 분석을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.