Skip to main content
QUICK REVIEW

[논문 리뷰] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog

Natasha Jaques, Asma Ghandeharioun|arXiv (Cornell University)|2019. 06. 30.
Reinforcement Learning in Robotics참고 문헌 64인용 수 131
한 줄 요약

이 논문은 KL-제어와 드롭아웃 기반 불확실성을 이용한 오프폴리시 배치 심층 강화학습 방법으로 고정된 인간 상호작용 데이터에서 대화 정책을 학습하여 온라인 탐색 없이 오픈 도메인 대화에서 베이스라인 대비 성능을 향상시킨다.

ABSTRACT

Most deep reinforcement learning (RL) systems are not able to learn effectively from off-policy data, especially if they cannot explore online in the environment. These are critical shortcomings for applying RL to real-world problems where collecting data is expensive, and models must be tested offline before being deployed to interact with the environment -- e.g. systems that learn from human interaction. Thus, we develop a novel class of off-policy batch RL algorithms, which are able to effectively learn offline, without exploring, from a fixed batch of human interaction data. We leverage models pre-trained on data as a strong prior, and use KL-control to penalize divergence from this prior during RL training. We also use dropout-based uncertainty estimates to lower bound the target Q-values as a more efficient alternative to Double Q-Learning. The algorithms are tested on the problem of open-domain dialog generation -- a challenging reinforcement learning problem with a 20,000-dimensional action space. Using our Way Off-Policy algorithm, we can extract multiple different reward functions post-hoc from collected human interaction data, and learn effectively from all of these. We test the real-world generalization of these systems by deploying them live to converse with humans in an open-domain setting, and demonstrate that our algorithm achieves significant improvements over prior methods in off-policy batch RL.

연구 동기 및 목표

  • 온라인 탐색 없이 오픈 도메인 대화 기반 강화학습에서 고정 배치의 인간 상호작용 데이터로 학습 가능하게 하기.
  • 정책 업데이트를 규제하기 위해 KL-제어로 강력한 사전 학습 프리마를 활용하여 발산을 완화.
  • Double Q-학습의 대안으로 드롭아웃 기반 불확실성 추정치를 사용해 목표 Q값의 하향 경사를 보수적으로 구하기.
  • 상호작용 데이터에서 감정, 참여도 등과 같은 암시적 인간 보상을 사후 보상 함수로 학습에 활용하기.
  • 휴먼 사용자와의 라이브 배포를 통해 일반화와 강건성을 평가하기.

제안 방법

  • 상태-행동 공간의 생성 모델을 알려진 궤적에서 사전으로 작용하도록 사전 학습시키기.
  • 고정 배치를 사용해 배치 데이터로 벨먼과 유사한 타깃을 최소화하는 Q-네트워크 학습(Batch Q).
  • 타깃 Q값에 드롭아웃 기반 불확실성 추정치를 도입해 보수적 하한을 얻기 위한 Batch Q MC.
  • 사전 학습된 프리파라를 사용해 이산 행동 공간에 Batch Constrained Q-learning을 적용하기 위한 Discrete Batch Constrained Q - DBCQ.
  • Prior로부터의 발산을 페널티화하고 사전 가능도(prior likelihood)와 엔트로피 항을 포함하는 KL-정규화된 Q-함수를 도출하기 위한 KL-제어 도입(Psi-함수 구성).
  • 더 강건한 학습을 위해 다중 프리파라에 대한 모델 평균화로 모델 평균 priors를 적용하는 옵션이 있음

실험 결과

연구 질문

  • RQ1오프폴리시 배치 강화학습이 강력한 사전 학습 프리로부터 환경 탐색 없이도 효과적인 대화 정책을 학습할 수 있는가?
  • RQ2사전 학습된 프리에서의 KL-제어가 고차원 행동 공간(오픈 도메인 대화 등)에서 학습의 안정성과 Q값 과대추정을 줄여 주는가?
  • RQ3드롭아웃 기반 불확실성 추정치가 오프라인 BRL에서의 과대추정을 완화하는 데 Double Q-학습과 비교해 어떤 차이가 있는가?
  • RQ4상호작용 데이터로부터 사후에 추출 가능한 암시적 인간 보상 신호(감정, 참여도 등)는 대화 정책 학습에 어떻게 기여하는가?
  • RQ5KL-제어, Psi-학습, 모델 평균 priors가 실제 운영 배포와 사용자 인식에 미치는 영향은 어떠한가?

주요 결과

Model typeQualityFluentDiverseRelatedEmpathyTotalVotesHuman reward
DBCQ1.64 \u0000b1 .291.87 \u0000b1 .343.13 \u0000b1 .581.84 \u0000b1 .342.09 \u0000b1 .3810.58 \u0000b1 1.55-0.228-0.050
Batch Q1.87 \u0000b1 .302.36 \u0000b1 .422.20 \u0000b1 .411.91 \u0000b1 .322.58 \u0000b1 .4711.91 \u0000b1 1.58-0.163-0.005
Batch Q MC1.85 \u0000b1 .392.46 \u0000b1 .442.46 \u0000b1 .521.98 \u0000b1 .392.34 \u0000b1 .4711.07 \u0000b1 1.82-0.0680.005
KL-control Q2.38 \u0000b1 .393.24 \u0000b1 .473.42 \u0000b1 .542.38 \u0000b1 .452.56 \u0000b1 .4313.98 \u0000b1 1.81-0.0160.004
KL-control \u0003cPsi\u0003c2.33 \u0000b1 .413.73 \u0000b1 .532.82 \u0000b1 .502.31 \u0000b1 .443.47 \u0000b1 .5014.67 \u0000b1 1.820.1280.061
KL-control MA \u0003cPsi\u0003c2.60 \u0000b1 .433.47 \u0000b1 .423.00 \u0000b1 .492.49 \u0000b1 .442.89 \u0000b1 .5114.44 \u0000b1 1.960.1270.042
  • KL-제어 모델은 인간 평가 지표와 암시적 보상에서 베이스라인보다 상당히 우수하게 나타났다.
  • 드롭아웃 기반 불확실성 추정치는 여러 타깃 네트워크 없이도 보수적 Q값 하한을 제공해 과대추정을 완화한다.
  • 모델 평균 priors(MA)는 다양한 데이터 소스와 아키텍처에서 강건성을 향상시켰다.
  • 사전 학습 프리와 가까운 정책은 보상 최대화 기반의 정책에 비해 더 그럴듯하고 공손하며 참여도 높은 대화를 생성한다.
  • 감정, 참여도(단어 수), 웃음, 의미적 유사성, 질문 행태 등의 암시적 보상이 학습을 더 품질 높은 대화로 이끈다.
  • 강력한 프리와 KL-제어를 갖춘 모델은 오픈 도메인 대화의 BRL에서 안정적인 학습과 성능 향상에 필수적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.