Skip to main content
QUICK REVIEW

[논문 리뷰] MPCEval: A Benchmark for Multi-Party Conversation Generation

Minxing Zhang, Yi Yang|arXiv (Cornell University)|2026. 03. 05.
Topic Modeling인용 수 0
한 줄 요약

MPCEval은 로컬 및 글로벌 평가를 통해 다자 간 대화 생성 작업 인식 벤치마크를 도입하고 분해된, 참조 없는 지표를 사용하여 모델 행동을 진단합니다.

ABSTRACT

Multi-party conversation generation, such as smart reply and collaborative assistants, is an increasingly important capability of generative AI, yet its evaluation remains a critical bottleneck. Compared to two-party dialogue, multi-party settings introduce distinct challenges, including complex turn-taking, role-dependent speaker behavior, long-range conversational structure, and multiple equally valid continuations. Accordingly, we introduce MPCEval, a task-aware evaluation and benchmarking suite for multi-party conversation generation. MPCEval decomposes generation quality into speaker modeling, content quality, and speaker--content consistency, and explicitly distinguishes local next-turn prediction from global full-conversation generation. It provides novel, quantitative, reference-free, and reproducible metrics that scale across datasets and models. We apply MPCEval to diverse public and real-world datasets and evaluate modern generation methods alongside human-authored conversations. The results reveal systematic, dimension-specific model characteristics in participation balance, content progression and novelty, and speaker--content consistency, demonstrating that evaluation objectives critically shape model assessment and that single-score evaluation obscures fundamental differences in multi-party conversational behavior. The implementation of MPCEval and the associated evaluation code are publicly available at https://github.com/Owen-Yang-18/MPCEval.

연구 동기 및 목표

  • 다자 간 대화에 대한 평가 프레임워크로서 MPCEval을 정의한다.
  • 품질을 화자 모델링, 내용 품질, 화자–내용 일관성으로 분해한다.
  • 로컬의 다음 발화 예측과 글로벌 전체 대화 생성 간의 차이를 구분한다.
  • 데이터셋과 모델에 걸쳐 확장 가능한 정량적이고 참조 없는 재현 가능한 지표를 제공한다.
  • 향후 평가 차원을 위한 확장 가능한 벤치마크 프레임워크를 제공한다.

제안 방법

  • 로컬 및 글로벌 생성 목표를 구분하는 작업 인지 평가 프레임워크를 제안한다.
  • 평가를 화자 모델링, 내용 품질, 화자–내용 일관성의 세 가지 차원으로 구성한다.
  • 로컬 및 글로벌 평가를 위한 참조 없는 지표를 포괄적으로 개발한다(표 1).
  • 일반화 가능성을 테스트하기 위해 세 가지 다자 간 데이터세트(DeliData, MPDD, Tanka)를 평가한다.
  • 개방적이고 확장 가능한 파이프라인 내에서 프롬프트 기반 및 학습 기반 생성 방법을 모두 지원한다.
  • 재현 가능한 벤치마킹을 가능하게 하려 MPCEval을 오픈 소스로 공개한다.
Figure 1. Overall design of the MPCEval framework.
Figure 1. Overall design of the MPCEval framework.

실험 결과

연구 질문

  • RQ1RQ1: 서로 다른 생성 모델이 세 가지 평가 차원과 데이터세트 및 세분성(로컬 대 글로벌) 전반에서 체계적인 차이를 보이는가?
  • RQ2RQ2: MPCEval 지표가 기존 지표에 비해 민감도와 진단력에서 어떻게 비교되며, 전통적 지표가 실패하는 곳은 어디인가?
  • RQ3RQ3: 인간 작성 대화와 기계 생성 대화가 평가 차원에서 어떻게 다른가, 그리고 인간 데이터를 보편적 골드 스탠다드로 간주해야 하는가?

주요 결과

  • 다양한 모델은 차원별 특성을 보이며 MPCEval이 데이터세트와 평가 세분성 전반에서 이를 구분할 수 있다.
  • MPCEval 지표는 단일 점수 평가를 넘어 진단적 통찰을 제공하고 집계 지표로 보이지 않는 트레이드오프를 드러낸다.
  • 전통 지표에 의존하면 다자 간 설정에서 모델 비교를 오도할 수 있다.
  • 인간 작성 대화가 모든 평가 차원에서 동일하게 우수하지 않으며 모델의 강점은 차원에 따라 다르다.
  • 이 프레임워크는 개방적이고 확장 가능하며 원칙에 따른 벤치마킹 및 실제 배치를 위해 설계되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.