QUICK REVIEW

[논문 리뷰] Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models

Jimmy Wei, Kurt Shuster|arXiv (Cornell University)|2023. 04. 26.

Topic Modeling인용 수 9

한 줄 요약

본 논문은 LIGHT의 다자 대화 데이터셋인 MultiLIGHT를 수집하고 그룹 대화에서의 차례 처리(turn-taking)와 응집력(coherence)을 다루는 트랜스포머 기반 모델을 평가하며, 새로운 데이터로 발화 품질이 향상되고 차례 처리 전략이 분석된다는 것을 보여준다.

ABSTRACT

Current dialogue research primarily studies pairwise (two-party) conversations, and does not address the everyday setting where more than two speakers converse together. In this work, we both collect and evaluate multi-party conversations to study this more general case. We use the LIGHT environment to construct grounded conversations, where each participant has an assigned character to role-play. We thus evaluate the ability of language models to act as one or more characters in such conversations. Models require two skills that pairwise-trained models appear to lack: (1) being able to decide when to talk; (2) producing coherent utterances grounded on multiple characters. We compare models trained on our new dataset to existing pairwise-trained dialogue models, as well as large language models with few-shot prompting. We find that our new dataset, MultiLIGHT, which we will publicly release, can help bring significant improvements in the group setting.

연구 동기 및 목표

쌍자 간 대화를 넘어 개방 도메인 다자 대화 연구를 고무한다.
세 명의 참가자 대화와 페르소나-역할 근거를 갖춘 통제되고 기반이 되는 데이터셋(MultiLIGHT)을 만든다.
그룹 설정에서 차례 처리와 발화 응집력을 다양한 모델 아키텍처가 어떻게 다루는지 평가한다.
MultiLIGHT로의 학습이 두 사람 대화 데이터셋과 대형 언어 모델에 비해 성능에 어떤 영향을 미치는지 평가한다.

제안 방법

할당된 페르소나와 위치를 가진 세 사람 대화를 확장하여 LIGHT를 확장해 MultiLIGHT 데이터셋을 구축한다.
Mephisto와 Mechanical Turk를 통해 훈련/검증/테스트 분할 데이터를 수집하기 위한 대화를 크라우드소싱한다.
발화 차례와 발화 생성에 대해 네 가지 모델 패러다임을 제안하고 비교한다: Silence OR Utterance, Speaker AND Utterance, Speaker Only, Utterance Only.
기본 모델로 2.7B 매개변수의 Transformer(R2C2)를 사용하고 LIGHT, LIGHT Wild, MultiLIGHT를 포함한 여러 데이터셋에서 미세조정한다.
MultiLIGHT 검증 세트에서 화자 예측 작업으로 차례 처리(turn-taking)를 평가한다.
발화 생성에서 perplexity와 unigram F1을 사용해 응집력을 평가하고, LIGHT SotA 및 다른 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1기존의 두 사람 대화 모델이 적절한 차례 처리와 응집력을 유지하며 다자 설정을 다룰 수 있는가?
RQ2전용 다자 대화 데이터셋(MultiLIGHT)의 도입이 그룹 대화의 발화 품질을 향상시키는가?
RQ3다른 모델 아키텍처(차례 처리 우선 vs 발화 우선)가 다음 화자 예측 및 일관된 발화 생성에서 어떻게 성능을 보이는가?
RQ4다자 대화에 대한 인간 판단에서 차례 처리와 발화 품질의 상대적 기여도는 무엇인가?

주요 결과

지표	학습	검증	테스트	전체
Number of Dialogues	10,204	390	323	10,917
Number of Utterances	293,264	11,005	9,164	313,433
Average Utterances per Dialogue	28.7	28.2	28.4	28.7

MultiLIGHT 학습은 다자 발화 품질을 향상시키며, 이전 최첨단 대비 인간 평가 지표에서 상당한 이점을 보여준다.
Speaker-only 및 Speaker+Utterance 모델은 MultiLIGHT 검증에서 다음 화자 예측 정확도 약 49.5%를 달성한다.
Utterance-only 및 Speaker+Utterance 접근법은 Baselines 대비 MultiLIGHT에서 응집력 지표(낮은 perplexity 및 높은 F1)가 크게 향상된다.
인간 평가에서 MultiLIGHT를 사용하는 발화 생성 모델의 일관성과 몰입도에 대한 강한 개선이 나타난다.
발화 차례 모델은 개방형 설정에서 대화 품질에 미치는 영향이 제한적이며, 일부 다자 컨텍스트에서 차례 처리의 엄격함이 덜 중요할 수 있음을 시사한다.
MultiLIGHT 데이터셋(대화 10,917, 발화 313,433개)은 두 사람 데이터에 비해 여러 페르소나와 설정에 모델을 더 잘 맞추도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.