[논문 리뷰] Evolved Policy Gradients
EPG는 진화 전략을 통해 미분 가능하고 시계열 구조의 손실 함수를 학습하여 RL 에이전트를 훈련시키고, 테스트 시 보상 신호 없이도 빠른 학습과 새로운 과제에 대한 일반화를 가능하게 한다.
We propose a metalearning approach for learning gradient-based reinforcement learning (RL) algorithms. The idea is to evolve a differentiable loss function, such that an agent, which optimizes its policy to minimize this loss, will achieve high rewards. The loss is parametrized via temporal convolutions over the agent's experience. Because this loss is highly flexible in its ability to take into account the agent's history, it enables fast task learning. Empirical results show that our evolved policy gradient algorithm (EPG) achieves faster learning on several randomized environments compared to an off-the-shelf policy gradient method. We also demonstrate that EPG's learned loss can generalize to out-of-distribution test time tasks, and exhibits qualitatively different behavior from other popular metalearning algorithms.
연구 동기 및 목표
- RL 에이전트용으로 미분 가능 손실 함수를 학습하는 메타학습 프레임워크를 도입한다.
- 내부 루프 학습이 높은 최종 보상을 내도록 손실 매개변수를 최적화하기 위해 진화 전략을 사용한다.
- 에이전트의 히스토리를 시계열 합성곱을 통해 활용하는 손실 아키텍처를 설계한다.
- 무작위화된 연속 제어 과제들에서 더 빠른 학습과 분포 외 일반화를 시연한다.
- 학습된 손실이 대상 과제 분포에서 표준 정책경사 기반 기법을 능가할 수 있음을 보인다.
제안 방법
- 외부 루프가 손실 함수 Lφ를 진화시키는 두 루프의 메타학습 과정을 형식화한다.
- 최근 에이전트 경험에 대한 시계열 합성곱으로 Lφ를 히스토리를 포착하도록 표현한다.
- Lφ에 대해 SGD로 내부 루프 정책 πθ를 최적화한다.
- 최종 보상은 φ의 명시적 함수가 아니므로 φ를 최적화하기 위해 진화 전략을 사용한다.
- 손실에 히스토리를 제공하기 위한 메모리 유닛과 버퍼, 그리고 시계열 합성곱에서 얻은 컨텍스트 벡터를 포함한다.
- 보상 기반 대리 손실 Lpg로 학습을 부트스트랩하고 0으로 감소시키며 Lφ가 시간이 지남에 따라 학습을 주도하게 한다.
실험 결과
연구 질문
- RQ1학습된 미분 가능 손실 대리자가 과제 분포에서 RL 에이전트의 샘플 효율성과 최종 성능을 향상시킬 수 있는가?
- RQ2ES를 통해 손실 함수를 진화시키면 보지 못한 과제나 분포 외 과제에 일반화되는 정책이 생기는가?
- RQ3EPG 손실이 에이전트 히스토리를 어떻게 활용하여 테스트 시 보상에 의존하지 않고 빠른 적응과 탐색을 가능하게 하는가?
- RQ4학습된 손실이 만들어내는 그래디언트와 전통적인 정책경사 목표 간의 관계는 무엇인가?
주요 결과
- EPG는 여러 무작위화된 연속 제어 과제에서 일반적인 정책경사 방법보다 더 빠르게 에이전트를 학습시킨다.
- 학습된 손실 Lφ는 분포 외의 테스트 시 과제로 일반화할 수 있으며 다른 메타학습 방법과 양상적으로 다른 행동을 보인다.
- 메모리 메커니즘과 시계열 합성곱을 포함하면 손실이 에이전트 히스토리를 활용해 내부 루프 업데이트 시 더 나은 가이던스를 제공한다.
- 학습된 손실로의 테스트 시 학습은 보상 신호를 필요로 하지 않지만, 학습 과제 분포 내에서 높은 최종 성능을 달성할 수 있다.
- 손실과 함께 정책 초기화(EPI? EPG+I) 를 진화시키면 일반적인 기준선에 비해 때로는 유리한 학습 역학을 낳을 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.