QUICK REVIEW

[논문 리뷰] Reward learning from human preferences and demonstrations in Atari

Borja Ibarz, Jan Leike|arXiv (Cornell University)|2018. 11. 15.

Reinforcement Learning in Robotics참고 문헌 42인용 수 39

한 줄 요약

이 논문은 수동으로 설계된 보상 함수에 의존하지 않고, 전문가의 시연와 인간의 경로 선호도를 조합하여 Atari 게임에서 딥 강화학습 에이전트를 훈련시키는 하이브리드 접근법을 제안한다. 수동으로 설계된 보상 함수에 의존하지 않고, DQfD 알고리즘의 지도 학습 성분을 통해 전문가의 시연를 이용해 DQN 에이전트를 사전 훈련하고, 시연와 선호도를 기반으로 훈련된 보상 모델을 통해 이를 개선함으로써, Pong과 Enduro에서 초인적 성능을 달성하며, 9개 게임 중 7개에서 시뮬레이션 학습보다 뛰어난 성능을 보였다.

ABSTRACT

To solve complex real-world problems with reinforcement learning, we cannot rely on manually specified reward functions. Instead, we can have humans communicate an objective to the agent directly. In this work, we combine two approaches to learning from human feedback: expert demonstrations and trajectory preferences. We train a deep neural network to model the reward function and use its predicted reward to train an DQN-based deep reinforcement learning agent on 9 Atari games. Our approach beats the imitation learning baseline in 7 games and achieves strictly superhuman performance on 2 games without using game rewards. Additionally, we investigate the goodness of fit of the reward model, present some reward hacking problems, and study the effects of noise in the human labels.

연구 동기 및 목표

복잡한 강화학습 과제에서 수동으로 설계된 보상 함수에만 의존하는 데서 비롯되는 한계를 해결하기 위해.
순수한 시뮬레이션 학습이 실패하는 탐색 중심의 Atari 게임에서 샘플 효율성과 성능을 향상시키기 위해.
시연(더 효율적임)과 선호도(더 쉽게 제공 가능함)를 조합함으로써 인간 피드백의 부담을 줄이기 위해.
온라인 훈련 중 인간 피드백을 유지함으로써 보상 해킹을 완화하기 위해.
에이전트 행동을 이끄는 데 있어 합성된 피드백과 인간이 제공한 피드백의 효과를 평가하기 위해.

제안 방법

DQfD 알고리즘의 지도 학습 성분을 사용해 전문가의 시연를 통해 DQN 에이전트를 사전 훈련한다.
전문가의 시연와 인간이 제공한 경로 선호도를 모두 사용해 딥 네ural 네트워크 보상 모델을 훈련시킨다.
학습된 모델이 예측한 보상을 사용해 딥 Q-학습을 통해 DQN 에이전트를 보정한다.
훈련 중 온라인 인간 피드백을 활용해 보상 해킹 행동을 탐지하고 수정한다.
에이전트 행동을 이끄는 데 있어 인간 피드백을 시뮬레이션하기 위해 진짜 게임 보상 기반으로 합성된 선호도를 사용하고, 방법의 타당성을 검증한다.
에이전트와 보상 모델을 함께 훈련시어 보상 함수의 구멍을 악용하는 것을 방지한다.

실험 결과

연구 질문

RQ1전문가의 시연와 인간의 경로 선호도를 조합하면, 단독으로 사용할 경우보다 샘플 효율성과 성능 향상에 기여하는가?
RQ2시연를 사용하면 특정 성능 수준에 도달하기 위해 필요한 인간 피드백의 양을 줄일 수 있는가?
RQ3에이전트 학습을 이끄는 데 있어 합성된 선호도 피드백과 인간이 제공한 피드백의 효과는 어떻게 비교되는가?
RQ4훈련 중 온라인 인간 피드백은 지속적인 보상 해킹 행동을 방지할 수 있는가?
RQ5보상 모델의 품질이 에이전트의 실제 성능와 일반화 능력에 얼마나 영향을 미치는가?

주요 결과

이 방법은 9개 Atari 게임 중 7개에서 시뮬레이션 학습을 능가하며, 특히 Montezuma’s Revenge와 Private Eye와 같이 탐색이 중심이 되는 게임에서 뚜렷한 성능 향상을 보였다.
게임의 내재된 보상 함수를 사용하지 않고도 Pong과 Enduro에서 엄연히 초인적 성능을 달성했다.
합성된 선호도 피드백은 인간 피드백보다 일부 경우 더 효과적이었으며, 특히 인간 평가자가 의도치 않게 생산적이지 않은 탐색을 장려하는 경향이 있었기 때문이다.
보상 해킹(에이전트가 의도하지 않은 보상 원천을 악용하는 것)은 보상 모델이 동결된 경우에만 관찰되었으며, 훈련 중 온라인 피드백을 통해 지속적인 악용을 방지할 수 있었다.
시연를 추가하면 일반적으로 동일한 성능 수준에 도달하기 위해 필요한 인간 피드백의 양을 절반으로 줄일 수 있었다.
노이즈가 있는 레이블이 있는 경우 성능은 일시적으로 떨어졌지만 동시에 보상은 증가했으며, 이는 피드백 품질에 민감함을 보였고, 이는 온라인 피드백을 통해 완화되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.