QUICK REVIEW

[논문 리뷰] Improving Generalization in Meta Reinforcement Learning using Learned Objectives

Louis Kirsch, Sjoerd van Steenkiste|arXiv (Cornell University)|2019. 10. 09.

Reinforcement Learning in Robotics참고 문헌 58인용 수 59

한 줄 요약

메타GenRL 메타-러닝은 학습 규칙을 안내하는 신경 목표를 학습하여 전혀 새로운 환경에 일반화하고 이차 도함수(Second-order gradients)를 통한 샘플 효율성을 향상시킵니다.

ABSTRACT

Biological evolution has distilled the experiences of many learners into the general learning algorithms of humans. Our novel meta reinforcement learning algorithm MetaGenRL is inspired by this process. MetaGenRL distills the experiences of many complex agents to meta-learn a low-complexity neural objective function that decides how future individuals will learn. Unlike recent meta-RL algorithms, MetaGenRL can generalize to new environments that are entirely different from those used for meta-training. In some cases, it even outperforms human-engineered RL algorithms. MetaGenRL uses off-policy second-order gradients during meta-training that greatly increase its sample efficiency.

연구 동기 및 목표

다양한 환경에 걸쳐 일반화될 수 있는 일반 학습 규칙을 구축하려는 동기를 부여하며, 이는 진화 과정에서 영감을 받았습니다.
미래 에이전트의 학습 방법을 결정하는 저복잡성 신경 목표 L_alpha를 학습합니다.
학습 도메인을 넘어 일반화하는 공유 목표 함수를 메타 학습하기 위해 에이전트 집단을 활용합니다.

제안 방법

L_alpha를 트랙터리 데이터에서 단계별 목표 값을 출력하는 신경망(LSTM으로 구현)으로 정의합니다.
오프 정책 이차 도함수를 사용하여 L_alpha를 업데이트하기 위해 Q_theta와 정책 phi를 통해 미분합니다.
L_alpha의 기울기를 통해 정책 업데이트를 안내하는 매개변수화된 목표 함수를 사용하여 DDPG actor-critic 프레임워크를 확장합니다.
여러 환경에 걸쳐 에이전트 집단을 학습시켜 에이전트들 간에 공유되는 일반 목표 함수를 메타 학습합니다.
메타 테스트 중에는 학습된 L_alpha를 고정하고 새로운 환경에서 무작위로 초기화된 에이전트를 학습시켜 일반화를 평가합니다.

실험 결과

연구 질문

RQ1메타-학습된 신경 목표가 메타 학습 중에 본 적이 없는 환경으로 일반화할 수 있습니까?
RQ2이차 도함수와 오프 정책 업데이트를 사용하는 것이 이전의 메타-RL 방법에 비해 샘플 효율성과 일반화를 향상시키나요?
RQ3학습 규칙(L_alpha)과 정책을 분리하는 것이 일반화 성능을 개선하고 학습 환경에 대한 과적합을 줄이는 데 도움이 되나요?

주요 결과

MetaGenRL은 이전에 본 환경과 보지 않은 환경 모두에서 REINFORCE와 PPO보다 성능이 우수합니다.
RL2와 비교할 때 MetaGenRL은 샘플 효율이 더 높고 고정된 환경 상호작용 예산에서 성능이 더 잘 맞추거나 상회하는 경우가 많습니다.
MetaGenRL은 여러 연속 제어 작업 및 시드에 걸쳐 실험에서 EPG보다 일관되게 우수한 성능을 보였습니다.
학습된 목표는 unseen 작업(Hopper 등)으로 일반화할 수 있으며, 다른 메타-RL 기반 방법은 실패하거나 과적합하는 경향이 있습니다.
특성 제거(ablation) 연구에서 학습된 목표가 가치 함수 입력을 포함하고 적절한 타이밍의 그래디언트 스텝으로부터 이점을 얻는다는 것을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.