[논문 리뷰] Deep reinforcement learning from human preferences
이 논문은 인간의 트래젝트리 구간 선호도로 보상 모델을 학습하고 RL로 최적화하여 정책을 학습하게 함으로써 실제 보상에 접근 권한이 없어도 복잡한 작업을 가능하게 한다. 최소한의 인간 피드백으로 Atari 및 MuJoCo 작업을 시연한다.
For sophisticated reinforcement learning (RL) systems to interact usefully with real-world environments, we need to communicate complex goals to these systems. In this work, we explore goals defined in terms of (non-expert) human preferences between pairs of trajectory segments. We show that this approach can effectively solve complex RL tasks without access to the reward function, including Atari games and simulated robot locomotion, while providing feedback on less than one percent of our agent's interactions with the environment. This reduces the cost of human oversight far enough that it can be practically applied to state-of-the-art RL systems. To demonstrate the flexibility of our approach, we show that we can successfully train complex novel behaviors with about an hour of human time. These behaviors and environments are considerably more complex than any that have been previously learned from human feedback.
연구 동기 및 목표
- 보상이 명확히 정의되기 어려운 영역에서 강화학습의 필요성을 제시한다.
- 절대 보상 대신 인간 선호로부터 학습하는 확장 가능한 방법을 개발한다.
- 비전문가의 소량의 인간 피드백이 대규모 작업에서 심층 강화학습을 유도할 수 있음을 보여준다.
- 손으로 설계하기 어려운 보상으로도 학습된 행동을 Atari와 MuJoCo에서 시연한다.
제안 방법
- 깊은 신경망으로 매개변수화된 정책 pi와 보상 예측기 hat{r}를 유지한다.
- 경로 세그먼트를 수집하고 인간에게 두 세그먼트를 비교하도록 질의한다.
- Bradley–Terry 유사 모델을 사용하여 인간 선호에 대한 교차 엔트로피 손실을 최대화함으로써 hat{r}를 적합시킨다.
- 예측 보상 hat{r}를 보상 신호로 사용하여 RL로 정책을 학습한다.
- 보상 예측기의 앙상블을 사용하고 출력의 평균으로 학습의 안정화를 도모한다.
- 세그먼트 쌍을 샘플링하고 앙상블 간 불일치가 큰 쿼리를 선택한다.
실험 결과
연구 질문
- RQ1짧은 경로 클립에 대한 인간 선호가 원래의 보상 함수 없이도 심층 RL 에이전트를 학습하기에 충분한 신호를 제공하는가?
- RQ2복잡한 작업에서 거의 RL 성능에 근접하려면 어느 정도의 어떤 유형의 인간 피드백이 필요한가? (실제 피드백 vs 합성/오라클 피드백 포함)
- RQ3온라인 인간 피드백이 보상 오지정 및 에이전트의 악용을 방지하는가?
- RQ4이 방법이 복잡한 도메인(Atari, MuJoCo)으로 확장되어 보상으로 손으로 설계하기 어려운 새로운 행동을 산출할 수 있는가?
주요 결과
- 이 방법은 Atari와 MuJoCo에서 전체 시연이나 보상 엔지니어링에 비해 훨씬 적은 인간 시간으로 복잡한 RL 작업을 해결하게 한다.
- 수백에서 수천 건의 인간 비교로, 이 방법은 여러 MuJoCo 작업과 일부 Atari 게임에서 거의 RL 성능에 근접하게 한다.
- 실제 인간 피드백은 작업 및 레이블링 일관성에 따라 합성 피드백과 유사하거나 약간 더 낮은 성능을 보이는 경우가 많다.
- 이 방법은 인간 시간이 한 시간도 채 되지 않는 동안 새로운 행동(예: 백플립, 교통이 있는 상황에서의 운전)을 학습할 수 있다.
- 온라인 업데이트 없이 오프라인으로 보상 예측기 학습은 실패할 수 있으며, 지속적인 RL과 인간 피드백의 통합의 중요성을 보여준다.
- hat{r}의 앙상블 사용과 경로 클립 간 비교는 학습의 안정성과 인간 판단과의 정렬을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.