Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models

Jimmy Wei, Kurt Shuster|arXiv (Cornell University)|2023. 04. 26.
Topic Modeling인용 수 9
한 줄 요약

본 논문은 LIGHT의 다자 대화 데이터셋인 MultiLIGHT를 수집하고 그룹 대화에서의 차례 처리(turn-taking)와 응집력(coherence)을 다루는 트랜스포머 기반 모델을 평가하며, 새로운 데이터로 발화 품질이 향상되고 차례 처리 전략이 분석된다는 것을 보여준다.

ABSTRACT

Current dialogue research primarily studies pairwise (two-party) conversations, and does not address the everyday setting where more than two speakers converse together. In this work, we both collect and evaluate multi-party conversations to study this more general case. We use the LIGHT environment to construct grounded conversations, where each participant has an assigned character to role-play. We thus evaluate the ability of language models to act as one or more characters in such conversations. Models require two skills that pairwise-trained models appear to lack: (1) being able to decide when to talk; (2) producing coherent utterances grounded on multiple characters. We compare models trained on our new dataset to existing pairwise-trained dialogue models, as well as large language models with few-shot prompting. We find that our new dataset, MultiLIGHT, which we will publicly release, can help bring significant improvements in the group setting.

연구 동기 및 목표

  • 쌍자 간 대화를 넘어 개방 도메인 다자 대화 연구를 고무한다.
  • 세 명의 참가자 대화와 페르소나-역할 근거를 갖춘 통제되고 기반이 되는 데이터셋(MultiLIGHT)을 만든다.
  • 그룹 설정에서 차례 처리와 발화 응집력을 다양한 모델 아키텍처가 어떻게 다루는지 평가한다.
  • MultiLIGHT로의 학습이 두 사람 대화 데이터셋과 대형 언어 모델에 비해 성능에 어떤 영향을 미치는지 평가한다.

제안 방법

  • 할당된 페르소나와 위치를 가진 세 사람 대화를 확장하여 LIGHT를 확장해 MultiLIGHT 데이터셋을 구축한다.
  • Mephisto와 Mechanical Turk를 통해 훈련/검증/테스트 분할 데이터를 수집하기 위한 대화를 크라우드소싱한다.
  • 발화 차례와 발화 생성에 대해 네 가지 모델 패러다임을 제안하고 비교한다: Silence OR Utterance, Speaker AND Utterance, Speaker Only, Utterance Only.
  • 기본 모델로 2.7B 매개변수의 Transformer(R2C2)를 사용하고 LIGHT, LIGHT Wild, MultiLIGHT를 포함한 여러 데이터셋에서 미세조정한다.
  • MultiLIGHT 검증 세트에서 화자 예측 작업으로 차례 처리(turn-taking)를 평가한다.
  • 발화 생성에서 perplexity와 unigram F1을 사용해 응집력을 평가하고, LIGHT SotA 및 다른 베이스라인과 비교한다.

실험 결과

연구 질문

  • RQ1기존의 두 사람 대화 모델이 적절한 차례 처리와 응집력을 유지하며 다자 설정을 다룰 수 있는가?
  • RQ2전용 다자 대화 데이터셋(MultiLIGHT)의 도입이 그룹 대화의 발화 품질을 향상시키는가?
  • RQ3다른 모델 아키텍처(차례 처리 우선 vs 발화 우선)가 다음 화자 예측 및 일관된 발화 생성에서 어떻게 성능을 보이는가?
  • RQ4다자 대화에 대한 인간 판단에서 차례 처리와 발화 품질의 상대적 기여도는 무엇인가?

주요 결과

지표학습검증테스트전체
Number of Dialogues10,20439032310,917
Number of Utterances293,26411,0059,164313,433
Average Utterances per Dialogue28.728.228.428.7
  • MultiLIGHT 학습은 다자 발화 품질을 향상시키며, 이전 최첨단 대비 인간 평가 지표에서 상당한 이점을 보여준다.
  • Speaker-only 및 Speaker+Utterance 모델은 MultiLIGHT 검증에서 다음 화자 예측 정확도 약 49.5%를 달성한다.
  • Utterance-only 및 Speaker+Utterance 접근법은 Baselines 대비 MultiLIGHT에서 응집력 지표(낮은 perplexity 및 높은 F1)가 크게 향상된다.
  • 인간 평가에서 MultiLIGHT를 사용하는 발화 생성 모델의 일관성과 몰입도에 대한 강한 개선이 나타난다.
  • 발화 차례 모델은 개방형 설정에서 대화 품질에 미치는 영향이 제한적이며, 일부 다자 컨텍스트에서 차례 처리의 엄격함이 덜 중요할 수 있음을 시사한다.
  • MultiLIGHT 데이터셋(대화 10,917, 발화 313,433개)은 두 사람 데이터에 비해 여러 페르소나와 설정에 모델을 더 잘 맞추도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.