[論文レビュー] MPCEval: A Benchmark for Multi-Party Conversation Generation
MPCEval は、ローカルおよびグローバル評価を横断する decomposed, reference-free 指標を用いた多-party 会話生成のタスク指向ベンチマークを導入し、モデルの挙動を診断します。
Multi-party conversation generation, such as smart reply and collaborative assistants, is an increasingly important capability of generative AI, yet its evaluation remains a critical bottleneck. Compared to two-party dialogue, multi-party settings introduce distinct challenges, including complex turn-taking, role-dependent speaker behavior, long-range conversational structure, and multiple equally valid continuations. Accordingly, we introduce MPCEval, a task-aware evaluation and benchmarking suite for multi-party conversation generation. MPCEval decomposes generation quality into speaker modeling, content quality, and speaker--content consistency, and explicitly distinguishes local next-turn prediction from global full-conversation generation. It provides novel, quantitative, reference-free, and reproducible metrics that scale across datasets and models. We apply MPCEval to diverse public and real-world datasets and evaluate modern generation methods alongside human-authored conversations. The results reveal systematic, dimension-specific model characteristics in participation balance, content progression and novelty, and speaker--content consistency, demonstrating that evaluation objectives critically shape model assessment and that single-score evaluation obscures fundamental differences in multi-party conversational behavior. The implementation of MPCEval and the associated evaluation code are publicly available at https://github.com/Owen-Yang-18/MPCEval.
研究の動機と目的
- MPCEval を多-party 会話の評価フレームワークとして定義する。
- 品質を話者モデリング、内容品質、話者–内容の一貫性の3要素に分解する。
- ローカルの次のターン予測とグローバルな全会話生成を区別する。
- データセットとモデルを横断して再現可能で定量的な、参照なしの指標を提供する。
- 将来の評価次元のための拡張可能なベンチマークフレームワークを提供する。
提案手法
- ローカル生成とグローバル生成の目的を分離するタスク指向評価フレームワークを提案する。
- 評価を話者モデリング、内容品質、話者–内容の一貫性の3次元に沿って整理する。
- ローカルおよびグローバル評価のための包括的な参照なし指標を開発する(表1)。
- 3つの多-party データセット(DeliData、MPDD、Tanka)を横断して一般性を検証する。
- オープンで拡張可能なパイプライン内で、プロンプトベースと訓練ベースの生成方法の両方をサポートする。
- 再現性のあるベンチマークを可能にするために MPCEval をオープンソースにする。

実験結果
リサーチクエスチョン
- RQ1RQ1: 異なる生成モデルは、3つの評価次元およびデータセット・粒度(ローカル対グローバル)全体で体系的な差異を示すか。
- RQ2RQ2: MPCEval 指標は感度と診断力の点で既存指標とどう比較され、伝統的な指標が失敗する箇所はどこか。
- RQ3RQ3: 人間作成と機械生成の会話は評価次元ごとにどのように異なり、人間データを普遍的な金標準として扱うべきか。
主な発見
- 異なるモデルは、MPCEval がデータセットと評価粒度を跨いで区別できる次元固有の挙動を示す。
- MPCEval 指標は単一スコア評価を超えた診断的洞察を提供し、総和指標では隠れたトレードオフを明らかにする。
- 従来の指標に依存すると、多-party 設定でのモデル比較を誤导する可能性がある。
- 人間作成の会話はすべての評価次元で一様に優れているわけではなく、モデルの強みは次元によって異なる。
- このフレームワークはオープンで拡張可能で、 principled なベンチマーキングと実世界展開を念頭に設計されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。