Skip to main content
QUICK REVIEW

[논문 리뷰] Topic-based Evaluation for Conversational Bots

Fenfei Guo, Angeliki Metallinou|arXiv (Cornell University)|2018. 01. 11.
Advanced Text Analysis Techniques참고 문헌 18인용 수 41
한 줄 요약

이 논문은 비작업형 대화 로봇을 평가하기 위한 주제 기반 지표를 도입하고, 주제 깊이, 폭, 및 키워드 커버리지를 측정하기 위해 주제 분류기(DAN 및 ADAN)를 개발하여 라이브 Alexa Prize 데이터와 인간 판단에 대해 검증한다.

ABSTRACT

Dialog evaluation is a challenging problem, especially for non task-oriented dialogs where conversational success is not well-defined. We propose to evaluate dialog quality using topic-based metrics that describe the ability of a conversational bot to sustain coherent and engaging conversations on a topic, and the diversity of topics that a bot can handle. To detect conversation topics per utterance, we adopt Deep Average Networks (DAN) and train a topic classifier on a variety of question and query data categorized into multiple topics. We propose a novel extension to DAN by adding a topic-word attention table that allows the system to jointly capture topic keywords in an utterance and perform topic classification. We compare our proposed topic based metrics with the ratings provided by users and show that our metrics both correlate with and complement human judgment. Our analysis is performed on tens of thousands of real human-bot dialogs from the Alexa Prize competition and highlights user expectations for conversational bots.

연구 동기 및 목표

  • 비작업형 봇의 대화 품질을 평가하기 위한 주제 기반 지표를 제시한다(주제 폭 및 깊이).
  • utterance의 주제와 주제별 키워드를 탐지하기 위해 감독 학습 주제 분류기를 개발한다.
  • Dan을 topic-word 주의 메커니즘으로 확장하여 해석 가능한 키워드 탐지를 가능하게 한다.
  • Alexa Prize 데이터에서 라이브 사용자 평가 및 인간 판단에 대해 자동 지표를 검증한다.

제안 방법

  • 발화에 대한 빠른 주제 분류기로서 Deep Averaging Networks(DAN)을 사용한다.
  • 주제-단어 주의 표를 갖춘 Attentional Deep Averaging Network(ADAN)을 도입하여 발화별로 중요한 주제 키워드를 식별한다.
  • 내부 Question 데이터(55개 주제)와 Alexa 지식-질의 데이터(26개 주제)에서 분류기를 학습한다.
  • 주제 기반 평가 지표를 정의한다: 주제별 턴, 주제 일관된 하위 대화, 주제 깊이, 그리고 주제 폭(거칠고 세밀한 수준)
  • 두 데이터 소스에서 학습된 DAN 모델을 엔섬블링하여 발화당 더 낮은 엔트로피 예측을 선택하는 방식으로 강건성을 높인다.

실험 결과

연구 질문

  • RQ1주제 기반 지표(깊이, 폭, 키워드 커버리지)가 비작업형 봇의 대화 품질을 신뢰할 수 있게 반영하는가?
  • RQ2주제 분류기(DAN/ADAN)가 사용자 발화에서 주제와 의미 있는 키워드를 정확히 식별하는가?
  • RQ3주제 기반 지표가 라이브 사용자 평가와 상관관계가 있으며 인간 판단을 보완하는가?
  • RQ4주제 기반 분석이 대화 로봇에 대한 사용자 기대치에 대해 어떤 통찰을 제공하는가?

주요 결과

  • 주제 깊이는 사용자 만족도와 상관관계가 있으며 응답 오류율(RER)의 예측력에 근접한다.
  • 거친(거칠은) 주제 폭은 사용자 평가와 상관관계가 있어 다양한 주제가 인지된 품질을 향상시키는 반면, 주제 빈도만으로는 예측력이 낮다.
  • ADAN을 통한 주제별 키워드 커버리지와 탐지는 사용자 의도 및 주제에 대한 의미 있고 해석 가능한 신호를 드러낸다.
  • DAN은 내부 및 Alexa 데이터 모두에서 강한 주제 분류 정확도를 달성하며, ADAN은 해석 가능한 키워드 탐지를 제공한다.
  • 주제 기반 지표는 반복성 및 주제 다양성에 대한 정보를 포착하며 라이브 평가만으로는 완전히 포착되지 않는 정보를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.