[논문 리뷰] Investigating Generalisation in Continuous Deep Reinforcement Learning
이 논문은 연속 제어에서 노이즈와 도메인 시프트 하에서 심층 강화 학습 에이전트가 일반화하는 방식을 분석하고, 학습 성능이 테스트 일반화를 예측하는 경우가 드물며 벤치마킹 일반화가 필요하다는 것을 보여준다.
Deep Reinforcement Learning has shown great success in a variety of control tasks. However, it is unclear how close we are to the vision of putting Deep RL into practice to solve real world problems. In particular, common practice in the field is to train policies on largely deterministic simulators and to evaluate algorithms through training performance alone, without a train/test distinction to ensure models generalise and are not overfitted. Moreover, it is not standard practice to check for generalisation under domain shift, although robustness to such system change between training and testing would be necessary for real-world Deep RL control, for example, in robotics. In this paper we study these issues by first characterising the sources of uncertainty that provide generalisation challenges in Deep RL. We then provide a new benchmark and thorough empirical evaluation of generalisation challenges for state of the art Deep RL methods. In particular, we show that, if generalisation is the goal, then common practice of evaluating algorithms based on their training performance leads to the wrong conclusions about algorithm choice. Finally, we evaluate several techniques for improving generalisation and draw conclusions about the most robust techniques to date.
연구 동기 및 목표
- 연속적인 Deep RL에서 일반화 문제를 일으키는 불확실성과 가변성의 원인을 특징화한다.
- 시드 및 도메인 시프트에 따라 학습/테스트 분할을 갖는 일반화 벤치마크를 개발한다.
- OpenAI Gym MuJoCo 태스크에서 최첨단 Deep RL 방법과 제안된 일반화 기법을 평가한다.
- 학습 성능이 일반화를 신뢰할 수 있게 나타내는지 평가하고 강건한 접근법을 식별한다.
제안 방법
- 환경 매개변수와 노이즈(도메인 시프트)에 대한 분포 하에서 RL 일반화를 형식화한다.
- 시드, 노이즈 스케일, 환경 매개변수 시프트에 걸친 학습/테스트 분할이 있는 일반화 벤치마크를 제안한다.
- 모델 프리 정책 경사 방법(TRPO, PPO, DDPG)과 수정(엔트로피 정규화, SCN, 적대적 학습, 다도메인 학습)을 평가한다.
- 노이즈/도메인 시프트 스케일에 대한 AUC를 포함한 평가 지표로 테스트 리턴, 기대 테스트 리턴 등을 도입한다.
- 노이즈 또는 다중 도메인으로 학습하는 것이 테스트 일반화에 어떤 영향을 미치는지 분석한다.
실험 결과
연구 질문
- RQ1관찰, 행동, 환경 노이즈에서 최첨단 연속 제어 RL 방법은 어떻게 일반화되는가?
- RQ2학습과 테스트 간 환경 매개변수의 도메인 시프트가 정책 성능에 어떻게 영향을 미치는가?
- RQ3간단한 학습 시간 수정(노이즈, 아키텍처 변경, 도메인 무작위화)이 일반화 문제에 대한 강건성을 향상시킬 수 있는가?
- RQ4학습 성능이 Deep RL에서 테스트 일반화의 신뢰할 수 있는 예측자인가?
- RQ5다양한 작업과 다양한 유형의 노이즈에 걸쳐 가장 강건한 일반화를 제공하는 훈련 전략은 무엇인가?
주요 결과
- 표준 연속 제어 정책은 노이즈 및 도메인 시프트 하에서 일반화가 낮으며, 노이즈나 매개변수 시프트가 증가할수록 성능이 저하된다.
- 학습 성능은 테스트 일반화를 예측하지 못한다; 많은 경우 학습 수익과 테스트 일반화 사이에 음의 상관관계가 있다.
- 노이즈를 포함한 학습 또는 다도메인 노출은 일부 작업 및 노이즈 유형에서 일반화를 개선할 수 있지만 환경에 따라 효과가 일관되게 나타나지 않는다.
- 더 작은 네트워크나 엔트로피 정규화 PPO(PPO-Ent)는 일반적으로 기본 PPO에 비해 일반화를 개선하지만 작업과 노이즈 유형에 따라 결과가 다르다.
- 작업 전반에 걸쳐 일반화에서 일관되게 타 알고리즘을 능가하는 단일 알고리즘은 없으며, 전용 일반화 벤치마크의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.