[논문 리뷰] Discovering Reinforcement Learning Algorithms
이 논문은 LPG를 제시합니다. 이는 무엇을 예측할지와 부트스트랩하는 방법을 함께 학습하여 전체 RL 업데이트 규칙을 발견하는 메타 학습 프레임워크로, toy 환경에서 Atari 게임으로의 일반화를 가능하게 합니다. LPG는 예측 및 부트스트래핑에 대한 자체 의미론을 학습하여 데이터로부터 범용 RL 알고리즘을 도출할 가능성을 제공합니다.
Reinforcement learning (RL) algorithms update an agent's parameters according to one of several possible rules, discovered manually through years of research. Automating the discovery of update rules from data could lead to more efficient algorithms, or algorithms that are better adapted to specific environments. Although there have been prior attempts at addressing this significant scientific challenge, it remains an open question whether it is feasible to discover alternatives to fundamental concepts of RL such as value functions and temporal-difference learning. This paper introduces a new meta-learning approach that discovers an entire update rule which includes both 'what to predict' (e.g. value functions) and 'how to learn from it' (e.g. bootstrapping) by interacting with a set of environments. The output of this method is an RL algorithm that we call Learned Policy Gradient (LPG). Empirical results show that our method discovers its own alternative to the concept of value functions. Furthermore it discovers a bootstrapping mechanism to maintain and use its predictions. Surprisingly, when trained solely on toy environments, LPG generalises effectively to complex Atari games and achieves non-trivial performance. This shows the potential to discover general RL algorithms from data.
연구 동기 및 목표
- 데이터로부터 RL 업데이트 규칙의 자동 발견을 동기화한다.
- 예측 대상과 학습 메커니즘을 모두 공동으로 발견하는 메타 학습 프레임워크를 개발한다.
- 다양한 환경에서 일반화될 수 있는 업데이트 규칙(LPG)을 생산한다.
- 발견된 의미론이 가치 함수와 부트스트래핑에 유사한지 조사한다.
- toy 환경에서 복잡한 Atari 벤치마크로의 일반화를 입증한다.
제안 방법
- Learned Policy Gradient (LPG)를 제안하는데, 메타 매개변수로 매개된 업데이트 규칙 아키텍처로 정책과 예측 대상(hat{pi}, hat{y})를 출력합니다.
- 에이전트의 궤적 입력을 처리하고 에이전트 출력의 대상(hat{pi}, hat{y})를 생성하기 위해 역방향 LSTM을 사용합니다.
- KL-발산 기반 학습 신호와 보조 예측 업데이트 항으로 에이전트 업데이트를 정의합니다.
- 환경 분포 전반에 걸쳐 에이전트 업데이트를 역전파하여 최종 수명 말의 수익을 최대화하도록 LPG를 메타-학습합니다.
- 훈련의 안정성과 유용한 예측 의미론을 촉진하기 위해 엔트로피와 L2 항으로 메타 학습 프로세스를 정규화합니다.
- 메타 학습의 안정성을 높이기 위해 온라인으로 환경별 하이퍼파라미터를 밴딧과 유사한 스킴으로 균형 잡습니다.
실험 결과
연구 질문
- RQ1LPG가 RL에서 부트스트래핑을 위한 예측의 유용한 의미론을 발견할 수 있을까?
- RQ2LPG가 학습하는 예측의 의미론은 무엇이며 가치 함수와 유사한가?
- RQ3정책 업데이트를 배우는 것 이상으로 예측 의미론을 발견하는 것이 성능에 결정적인가?
- RQ4제시된 정규화항과 하이퍼파라미터 균형이 메타 학습의 안정성에 필수적인가?
- RQ5 toy 환경에서 학습된 LPG가 Atari 게임으로 일반화될 수 있는가?
주요 결과
- LPG는 여러 훈련 환경에서 Canonical baseline(A2C)보다 우수한 성능을 보여 업데이트 규칙의 유용한 발견을 시사합니다.
- 발견된 예측 y는 가치 함수와 유사한 특성을 보이고 정책 업데이트를 부트스트랩할 수 있습니다.
- 예측 의미론은 명시적 수렴 보증 없이도 정상적인 의미를 가진 것으로 수렴합니다.
- 정규화 항과 하이퍼파라미터 균형이 학습 안정성과 성능에 중요한 것으로 확인되는 폐기적 연구가 있습니다.
- toy 환경에서 학습된 LPG가 Atari 게임의 일부에서 일반화되어 여러 경우에서 비교적 우수한 성능을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.