QUICK REVIEW

[논문 리뷰] Answerer in Questioner's Mind for Goal-Oriented Visual Dialogue.

Sang-Woo Lee, Yu‐Jung Heo|arXiv (Cornell University)|2018. 02. 12.

Multimodal Machine Learning Applications참고 문헌 40인용 수 17

한 줄 요약

이 논문은 확률적 정보 수익을 사용하여 답변자의 가능한 반응을 모델링함으로써 질문자가 답변자의 의도를 추론할 수 있도록 하는 목표 지향적 시각 대화 프레임워크인 Answerer in Questioner's Mind(AQM)을 제안한다. AQM은 MNIST Counting Dialog 및 GuessWhat?!에서 기존 방법들을 능가하며 인간과 유사한 대화를 생성한다.

ABSTRACT

Goal-oriented dialogue has been paid attention for its numerous applications in artificial intelligence. To solve this task, deep learning and reinforcement learning have recently been applied. However, these approaches struggle to find a competent recurrent neural questioner, owing to the complexity of learning a series of sentences. Motivated by theory of mind, we propose Answerer in Questioner's Mind (AQM), a novel algorithm for goal-oriented dialogue. With AQM, a questioner asks and infers based on an approximated probabilistic model of the answerer. The questioner figures out the answerer's intent via selecting a plausible question by explicitly calculating the information gain of the candidate intentions and possible answers to each question. We test our framework on two goal-oriented visual dialogue tasks: MNIST Counting Dialog and GuessWhat?!. In our experiments, AQM outperforms comparative algorithms and makes human-like dialogue. We further use AQM as a tool for analyzing the mechanism of deep reinforcement learning approach and discuss the future direction of practical goal-oriented neural dialogue systems.

연구 동기 및 목표

순차적 추론의 복잡성으로 인해 목표 지향적 시각 대화에서 효과적인 순환 신경망 질문자를 훈련하는 데 도전하는 문제를 해결하기 위해.
확률적 추론 기반의 답변자 의도 모델링을 통해 대화 효율성과 인간다움을 향상시키기 위해.
질문자가 답변자의 의도와 대상 개념에 대해 최대 정보 수익을 얻을 수 있도록 질문을 선택할 수 있도록 하기 위해.
끝에서 끝까지 훈련된 딥 강화학습 기반 대화 시스템을 분석할 수 있는 도구를 제공하기 위해.

제안 방법

AQM은 후보 의도와 답변의 가능성을 추정하는 확률적 프레임워크를 사용하여 답변자의 의도를 모델링한다.
질문자는 각 후보 질문의 가능한 의도와 답변에 대한 기대 정보 수익을 계산하여 질문을 선택한다.
베이지안 추론을 사용하여 반복적으로 업데이트되는 답변자의 가능성이 있는 의도에 대한 내부 믿음 상태를 유지한다.
질문 생성을 안내하기 위해 답변자의 반응 분포의 미분 가능 근사치를 사용한다.
특히 시각 기반 작업에서 질문을 시각적 맥락에 기반하게 하기 위해 이미지에서 추출한 시각적 특징을 통합한다.
강화학습의 복잡성을 피하기 위해 인간 애너테이션 대화의 지도 신호를 사용하여 엔드 투 엔드로 훈련된다.

실험 결과

연구 질문

RQ1강화학습에 의존하지 않고 목표 지향적 시각 대화 중 질문자가 답변자의 의도를 효과적으로 추론할 수 있는 방법은 무엇인가?
RQ2정보 수익은 목표 개념에 대한 불확실성을 줄이는 최적의 질문을 선택하는 데 어떤 역할을 하는가?
RQ3딥 강화학습 기반 베이스라인과 비교해 볼 때, 답변자의 반응에 대한 확률적 모델링이 대화 효율성과 인간다움을 향상시킬 수 있는가?
RQ4질문자의 답변자 마음에 대한 내부 모델링이 시각 대화 작업 성능에 어떤 영향을 미치는가?
RQ5AQM은 끝에서 끝까지 훈련된 딥 강화학습 기반 대화 에이전트의 행동을 분석할 수 있는 진단 도구로 활용될 수 있는가?

주요 결과

AQM은 기존의 강화학습 및 지도 기반 베이스라인과 비교해 MNIST Counting Dialog 및 GuessWhat?! 벤치마크 과제에서 뛰어난 성능을 달성한다.
확률적 추론을 통해 답변자의 의도를 명시적으로 모델링함으로써 더 인간다운 대화를 생성한다.
정보 수익 기반 질문 선택은 목표 개념을 식별하는 데 더 빠른 수렴과 더 적은 질문 수를 가능하게 한다.
AQM은 끝에서 끝까지 훈련된 딥 강화학습 접근법보다 더 높은 샘플 효율성과 더 나은 해석 가능성(해석 가능성)을 보여준다.
신경 대화 에이전트의 의사결정 과정에 대한 통찰을 드러내며, 정신 상태 모델링의 중요성을 강조한다.
AQM은 다양한 시각 대화 시나리오에서 뛰어난 일반화 능력을 보이며 성능이 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.