QUICK REVIEW

[논문 리뷰] ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue Systems (ClariQ)

Mohammad Aliannejadi, Julia Kiseleva|arXiv (Cornell University)|2020. 09. 23.

Topic Modeling참고 문헌 9인용 수 32

한 줄 요약

이 논문은 개방 도메인 대화에서 명확화 질문을 생성하고 평가하는 ClariQ 챌린지를 다루며, Stage 1 정적 데이터와 Stage 2 인간-인-루프(human-in-the-loop) 평가를 통해 언제 명확화를 묻고 어떻게 생성하는지 연구합니다.

ABSTRACT

This document presents a detailed description of the challenge on clarifying questions for dialogue systems (ClariQ). The challenge is organized as part of the Conversational AI challenge series (ConvAI3) at Search Oriented Conversational AI (SCAI) EMNLP workshop in 2020. The main aim of the conversational systems is to return an appropriate answer in response to the user requests. However, some user requests might be ambiguous. In IR settings such a situation is handled mainly thought the diversification of the search result page. It is however much more challenging in dialogue settings with limited bandwidth. Therefore, in this challenge, we provide a common evaluation framework to evaluate mixed-initiative conversations. Participants are asked to rank clarifying questions in an information-seeking conversations. The challenge is organized in two stages where in Stage 1 we evaluate the submissions in an offline setting and single-turn conversations. Top participants of Stage 1 get the chance to have their model tested by human annotators.

연구 동기 및 목표

개방 도메인 대화에서 모호한 사용자 요청을 처리하기 위한 명확화 질문의 필요성을 동기 부여합니다.
언제 명확화를 요청할지와 명확화 질문을 어떻게 생성할지 연구하기 위한 두 단계 ClariQ 챌린지를 제안합니다.
방법을 벤치마킹하기 위한 데이터셋, 평가 지표 및 인간-루프 프로토콜을 제공합니다.

제안 방법

초기 사용자 요청, 명확화 질문 옵션 및 사용자 답변으로 구성된 정적 데이터 세트를 포함하는 Stage 1을 도입합니다; train/validate/test 분할이 제공됩니다.
(a) 명확화 질문의 필요성을 나타내는 1–4 점수를 추정하고; (b) 은행에서 가장 적합한 명확화 질문을 선택하는 두 가지 작업을 정의합니다.
다운스트림 문서 검색에 대한 명확화의 영향을 평가하기 위해 검색 기반 평가 지표(MRR, P@k, nDCG)를 사용합니다.
Stage 2는 언제 명확화를 할지와 어떻게 응답할지 결정해야 하는 대화 시스템을 평가하기 위해 실제 사용자를 참여시키며, 대화 관리에 대해 생성 모델을 선호합니다.
데이타와 평가 스크립트를 포함한 공개 저장소를 제공합니다.

실험 결과

연구 질문

RQ1RQ1: 대화 중 언제 명확화 질문을 해야 합니까?
RQ2RQ2: 명확화 질문을 어떻게 생성합니까?

주요 결과

Stage 1은 사용자 요청, 명확화 질문 및 답변이 포함된 데이터 세트와 70/30의 train/validation 분할 및 은행에 대한 질문 테스트 설정을 제공합니다.
평가는 검색 지표(MRR, P@1/3/5/10/20, nDCG@1/3/5/20) 및 질문 관련성에 대한 Recall@10/20/30으로 성능을 보여줍니다.
Stage 2는 명확화를 묻는 것과 관련성 있는 답변 제공의 균형을 맞추기 위해 생성 모델링과 실제 사용자 평가로의 전환을 강조합니다.
인간-루프 평가에서는 대화 기록, 시스템 응답 및 관련성과 자연스러움을 위한 사용자 평가를 수집합니다.
GitHub의 저장소는 데이터와 자동 평가 스크립트를 호스팅합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.