QUICK REVIEW

[논문 리뷰] MPCEval: A Benchmark for Multi-Party Conversation Generation

Minxing Zhang, Yi Yang|arXiv (Cornell University)|2026. 03. 05.

Topic Modeling인용 수 0

한 줄 요약

MPCEval은 로컬 및 글로벌 평가를 통해 다자 간 대화 생성 작업 인식 벤치마크를 도입하고 분해된, 참조 없는 지표를 사용하여 모델 행동을 진단합니다.

ABSTRACT

Multi-party conversation generation, such as smart reply and collaborative assistants, is an increasingly important capability of generative AI, yet its evaluation remains a critical bottleneck. Compared to two-party dialogue, multi-party settings introduce distinct challenges, including complex turn-taking, role-dependent speaker behavior, long-range conversational structure, and multiple equally valid continuations. Accordingly, we introduce MPCEval, a task-aware evaluation and benchmarking suite for multi-party conversation generation. MPCEval decomposes generation quality into speaker modeling, content quality, and speaker--content consistency, and explicitly distinguishes local next-turn prediction from global full-conversation generation. It provides novel, quantitative, reference-free, and reproducible metrics that scale across datasets and models. We apply MPCEval to diverse public and real-world datasets and evaluate modern generation methods alongside human-authored conversations. The results reveal systematic, dimension-specific model characteristics in participation balance, content progression and novelty, and speaker--content consistency, demonstrating that evaluation objectives critically shape model assessment and that single-score evaluation obscures fundamental differences in multi-party conversational behavior. The implementation of MPCEval and the associated evaluation code are publicly available at https://github.com/Owen-Yang-18/MPCEval.

연구 동기 및 목표

다자 간 대화에 대한 평가 프레임워크로서 MPCEval을 정의한다.
품질을 화자 모델링, 내용 품질, 화자–내용 일관성으로 분해한다.
로컬의 다음 발화 예측과 글로벌 전체 대화 생성 간의 차이를 구분한다.
데이터셋과 모델에 걸쳐 확장 가능한 정량적이고 참조 없는 재현 가능한 지표를 제공한다.
향후 평가 차원을 위한 확장 가능한 벤치마크 프레임워크를 제공한다.

제안 방법

로컬 및 글로벌 생성 목표를 구분하는 작업 인지 평가 프레임워크를 제안한다.
평가를 화자 모델링, 내용 품질, 화자–내용 일관성의 세 가지 차원으로 구성한다.
로컬 및 글로벌 평가를 위한 참조 없는 지표를 포괄적으로 개발한다(표 1).
일반화 가능성을 테스트하기 위해 세 가지 다자 간 데이터세트(DeliData, MPDD, Tanka)를 평가한다.
개방적이고 확장 가능한 파이프라인 내에서 프롬프트 기반 및 학습 기반 생성 방법을 모두 지원한다.
재현 가능한 벤치마킹을 가능하게 하려 MPCEval을 오픈 소스로 공개한다.

Figure 1. Overall design of the MPCEval framework.

실험 결과

연구 질문

RQ1RQ1: 서로 다른 생성 모델이 세 가지 평가 차원과 데이터세트 및 세분성(로컬 대 글로벌) 전반에서 체계적인 차이를 보이는가?
RQ2RQ2: MPCEval 지표가 기존 지표에 비해 민감도와 진단력에서 어떻게 비교되며, 전통적 지표가 실패하는 곳은 어디인가?
RQ3RQ3: 인간 작성 대화와 기계 생성 대화가 평가 차원에서 어떻게 다른가, 그리고 인간 데이터를 보편적 골드 스탠다드로 간주해야 하는가?

주요 결과

다양한 모델은 차원별 특성을 보이며 MPCEval이 데이터세트와 평가 세분성 전반에서 이를 구분할 수 있다.
MPCEval 지표는 단일 점수 평가를 넘어 진단적 통찰을 제공하고 집계 지표로 보이지 않는 트레이드오프를 드러낸다.
전통 지표에 의존하면 다자 간 설정에서 모델 비교를 오도할 수 있다.
인간 작성 대화가 모든 평가 차원에서 동일하게 우수하지 않으며 모델의 강점은 차원에 따라 다르다.
이 프레임워크는 개방적이고 확장 가능하며 원칙에 따른 벤치마킹 및 실제 배치를 위해 설계되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.