[논문 리뷰] Reinforcement Learning from Imperfect Demonstrations
NAC는 Q-함수를 정규화하여 시연에서의 학습과 환경 보상을 통합하고, 불완전한 시연에서의 강건한 학습을 가능하게 하며 시연자 성능을 넘어 향상시킨다.
Robust real-world learning should benefit from both demonstrations and interactions with the environment. Current approaches to learning from demonstration and reward perform supervised learning on expert demonstration data and use reinforcement learning to further improve performance based on the reward received from the environment. These tasks have divergent losses which are difficult to jointly optimize and such methods can be very sensitive to noisy demonstrations. We propose a unified reinforcement learning algorithm, Normalized Actor-Critic (NAC), that effectively normalizes the Q-function, reducing the Q-values of actions unseen in the demonstration data. NAC learns an initial policy network from demonstrations and refines the policy in the environment, surpassing the demonstrator's performance. Crucially, both learning from demonstration and interactive refinement use the same objective, unlike prior approaches that combine distinct supervised and reinforcement losses. This makes NAC robust to suboptimal demonstration data since the method is not forced to mimic all of the examples in the dataset. We show that our unified reinforcement learning algorithm can learn robustly and outperform existing baselines when evaluated on several realistic driving games.
연구 동기 및 목표
- 실제 세계의 robust한 학습을 시연과 환경 상호작용을 모두 활용하여 촉진한다.
- 다른 감독 손실과 강화 손실을 구분하지 않는 unified objective를 개발한다.
- 최적성 없이도 불완전하거나 노이즈가 섞인 시연으로부터의 학습을 가능하게 한다.
- 시연과 환경 기반의 개선을 아우르는 robust한 성능을 입증한다.
제안 방법
- Q-함수를 정규화하여 시연에서 unseen action을 감소시키는 Normalized Actor-Critic(NAC)을 제안한다.
- 통합 손실을 가진 soft policy gradient 프레임워크에서 NAC 업데이트를 도출한다.
- 훈련을 안정시키기 위해 외부 모방 손실 없이 목표 네트워크와 재플레이 버퍼를 사용한다.
- 동일한 Objective를 통해 시연을 오프폴리시 학습에 환경 전이와 함께 통합한다.
- NAC가 불완전한 시연에서 학습하고 상호작용을 통해 정책을 Refinement할 수 있음을 보여준다.
실험 결과
연구 질문
- RQ1NAC가 시연과 환경 기반 보상 모두에서 효과적으로 학습할 수 있는가?
- RQ2NAC가 서브최적이거나 노이즈가 있는 시연에 대해 강건한가?
- RQ3NAC가 운전 관련 작업에서 imitation과 RL의 baselines를 능가하는가?
- RQ4시연이 제한적이거나 노이즈가 많을 때 NAC가 기존 접근법과 어떻게 비교되는가?
주요 결과
- NAC는 modest한 시연으로 운전 작업에서 기존 방법을 능가하며 보상만을 사용하여 노이즈가 있는 시연을 허용한다.
- 통합 목표가 보조 감독 imitation 손실 없이 시연과 환경으로부터의 학습을 가능하게 한다.
- NAC는 불완전한 시연에 대해 강건하며 환경 상호작용을 통해 시연자의 성능을 넘어서 향상시킬 수 있다.
- 토이 및 현실적인 운전 환경에서 NAC는 제한된 시연 데이터와 다양한 보상 선택에도 여전히 강한 성능을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.