QUICK REVIEW

[논문 리뷰] End-to-End Optimization of Task-Oriented Dialogue Model with Deep Reinforcement Learning

Bing Liu, Gökhan Tür|arXiv (Cornell University)|2017. 11. 29.

Speech and dialogue systems참고 문헌 19인용 수 51

한 줄 요약

이 논문은 먼저 지도 학습으로 학습된 후 심층 강화 학습으로 최적화된 신경 기반 엔드-투-엔드 작업 지향 대화 시스템을 제시하여 작업 성공을 개선하고 대화 길이를 감소시키며 구성요소 기반 및 정책 전용 기준선보다 우수하다.

ABSTRACT

In this paper, we present a neural network based task-oriented dialogue system that can be optimized end-to-end with deep reinforcement learning (RL). The system is able to track dialogue state, interface with knowledge bases, and incorporate query results into agent's responses to successfully complete task-oriented dialogues. Dialogue policy learning is conducted with a hybrid supervised and deep RL methods. We first train the dialogue agent in a supervised manner by learning directly from task-oriented dialogue corpora, and further optimize it with deep RL during its interaction with users. In the experiments on two different dialogue task domains, our model demonstrates robust performance in tracking dialogue state and producing reasonable system responses. We show that deep RL based optimization leads to significant improvement on task success rate and reduction in dialogue length comparing to supervised training model. We further show benefits of training task-oriented dialogue model end-to-end comparing to component-wise optimization with experiment results on dialogue simulations and human evaluations.

연구 동기 및 목표

엔드-투-엔드 최적화로 전이되는 오류 전파를 줄이는 것을 목표로 삼는 것의 필요성 강조.
대화 상태를 추적하고 지식 베이스를 질의하며 엔드-투-엔드로 응답을 생성하는 신경 아키텍처 개발.
지도 학습만으로의 학습보다 심층 강화 학습 미세 조정이 작업 성공률과 대화 효율성을 향상시키는지 입증.
시뮬레이션 및 인간 평가를 통해 엔드-투-엔드 최적화의 이점이 구성요소별 최적화보다 우수함을 보여주기.

제안 방법

회 전반에 걸친 대화 레벨 LSTM으로 연속적인 대화 상태를 유지한다.
바이디렉셔널 LSTM 리더를 사용하여 사용자의 발화를 인코딩하고 U_k를 생성한다.
추적된 목표에 대해 슬롯 특화 MLP의 소프트맥스 출력을 통해 슬롯 분포를 예측한다.
높은 확률의 슬롯 값으로부터 KB 질의를 형성하고 KB 결과를 시스템 행동에 반영한다.
초기에 지도 학습으로 교차 엔트로피 손실을 최소화하여 슬롯 예측 및 행동 선택을 학습한다(손실의 선형 보간).
REINFORCE로 미세 조정; 탐색을 촉진하기 위해 소프트맥스 정책 사용; 작업 성공 시 보상, 실패 시 0, 대화 길이를 줄이기 위한 작은 턴당 페널티 부여.

실험 결과

연구 질문

RQ1엔드-투-엔드 학습이 전통적 파이프라인 또는 순수 지도 학습 기반 작업 지향 대화 시스템보다 로버스트성과 작업 성공을 향상시킬 수 있는가?
RQ2온라인 상호작용 중 정책 전용 강화 학습보다 엔드-투-엔드 최적화가 추가적인 이점을 제공하는가?
RQ3제안된 모델이 상태 추적, KB 인터페이싱, 엔드-투-엔드 응답 생성에서 도메인(예: 식당 예약 및 영화 예매) 간에 어떻게 성능을 발휘하는가?

주요 결과

모델	영역	음식	가격	공동
RNN [24]	92	86	86	69
NBT [6]	90	84	94	72
Our end-to-end model	90	84	92	72

엔드-투-엔드 강화 학습은 지도 학습만으로의 학습에 비해 작업 성공률을 높이고 대화 길이를 단축한다.
엔드-투-엔드 업데이트를 포함한 강화 학습은 상호작용 학습 동안 정책 전용 강화 학습보다 더 높은 성능을 보인다.
엔드-투-엔드 모델은 DSTC2에서 거의 최첨단 수준의 믿음 추적 및 영화 예매 데이터셋에서 강력한 슬롯 및 공동 슬롯 추적을 달성한다.
인간 평가자들은 엔드-투-엔드 강화 학습 모델의 시스템 턴 품질을 SL 및 정책 전용 RL 기준선보다 더 높게 평가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.