[論文レビュー] Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models
本論文は LIGHT における多者対話データセット MultiLIGHT を収集し、グループ対話におけるターン取りと一貫性を Transformer ベースのモデルで評価し、新データにより発話品質が向上することを示し、ターン取りの戦略を分析する。
Current dialogue research primarily studies pairwise (two-party) conversations, and does not address the everyday setting where more than two speakers converse together. In this work, we both collect and evaluate multi-party conversations to study this more general case. We use the LIGHT environment to construct grounded conversations, where each participant has an assigned character to role-play. We thus evaluate the ability of language models to act as one or more characters in such conversations. Models require two skills that pairwise-trained models appear to lack: (1) being able to decide when to talk; (2) producing coherent utterances grounded on multiple characters. We compare models trained on our new dataset to existing pairwise-trained dialogue models, as well as large language models with few-shot prompting. We find that our new dataset, MultiLIGHT, which we will publicly release, can help bring significant improvements in the group setting.
研究の動機と目的
- 対になり得る対話を超えたオープンドメインの多者対話の研究を動機づける。
- 3名の参加者による会話とペルソナ・ロールの grounding を含む、制御された現実的データセット(MultiLIGHT)を作成する。
- グループ設定でターン取りと発話の一貫性を、異なるモデルアーキテクチャがどのように扱うかを評価する。
- MultiLIGHT での学習が、二者対話データセットや大規模言語モデルと比較して性能にどのように影響するかを評価する。
提案手法
- Lightを三者対話に拡張して、割り当てられたペルソナと場所を含む MultiLIGHT データセットを構築する。
- Mephisto と Mechanical Turk を介して会話をクラウドソースし、訓練・検証・テスト分割を収集する。
- ターン取りと発話生成のために、Silence OR Utterance、Speaker AND Utterance、Speaker Only、Utterance Only の4モデルパラダイムを提案・比較する。
- 2.7B パラメータの Transformer(R2C2)をベースモデルとして使用し、LIGHT、LIGHT Wild、MultiLIGHT など複数のデータセットでファインチューニングする。
- MultiLIGHT の検証セットでスピーカー予測タスクによるターン取りを評価する。
- 発話生成のコヒーレンスを perplexity と unigram F1 で評価し、LIGHT SotA および他のベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1既存の二者対話モデルは、適切なターン取りと一貫性を備えた多者設定に対応できるか。
- RQ2専用の多者データセット(MultiLIGHT)の組み込みは、グループ対話における発話品質を向上させるか。
- RQ3次の話者を予測し、発話の一貫性を保つ点で、ターン取り優先型と発話優先型の異なるモデルアーキテクチャはどのように性能を示すか。
- RQ4多者対話に対する人間評価における、ターン取りと発話品質の相対的寄与はどれくらいか。
主な発見
| Metric | Train | Valid | Test | Total |
|---|---|---|---|---|
| Number of Dialogues | 10,204 | 390 | 323 | 10,917 |
| Number of Utterances | 293,264 | 11,005 | 9,164 | 313,433 |
| Average Utterances per Dialogue | 28.7 | 28.2 | 28.4 | 28.7 |
- MultiLIGHT の訓練は多者対話における発話品質を向上させ、従来の最先端と比較して人間評価指標で顕著な向上を示す。
- Speaker-only および Speaker+Utterance モデルは、MultiLIGHT の検証で次話者予測の精度約 49.5% を達成。
- 発話のみおよび Speaker+Utterance アプローチは、Baseline に比べて MultiLIGHT においてコヒーレンス指標を大きく改善(困難度低下の perplexity、F1 の向上)。
- 人間評価は、MultiLIGHT を用いた発話生成モデルの一貫性と魅力度の強い改善を示す。
- ターン取りモデルは、自由回答設定の対話品質感知に限定的な影響しか示さず、いくつかの多者コンテキストではターン取りの厳格さが必須ではない可能性を示唆する。
- MultiLIGHT データセット(10,917 の対話、313,433 の発話)は、二者データと比較して複数のペルソナと設定へのモデルのより良い grounding を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。