QUICK REVIEW

[논문 리뷰] VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

Luisa Zintgraf, Kyriacos Shiarlis|arXiv (Cornell University)|2019. 10. 18.

Domain Adaptation and Few-Shot Learning참고 문헌 59인용 수 62

한 줄 요약

VariBAD는 작업 임베딩을 추정하여 미지 환경에서 근사 베이즈 최적 탐색을 수행하는 변분 베이즈 적응형 심층 강화학습 프레임워크를 메타학습으로 학습하며, 온라인 적응 및 향상된 수익을 가능하게 한다.

ABSTRACT

Trading off exploration and exploitation in an unknown environment is key to maximising expected return during learning. A Bayes-optimal policy, which does so optimally, conditions its actions not only on the environment state but on the agent's uncertainty about the environment. Computing a Bayes-optimal policy is however intractable for all but the smallest tasks. In this paper, we introduce variational Bayes-Adaptive Deep RL (variBAD), a way to meta-learn to perform approximate inference in an unknown environment, and incorporate task uncertainty directly during action selection. In a grid-world domain, we illustrate how variBAD performs structured online exploration as a function of task uncertainty. We further evaluate variBAD on MuJoCo domains widely used in meta-RL and show that it achieves higher online return than existing methods.

연구 동기 및 목표

알려지지 않은 환경에서 탐색-활용의 트레이드오프를 촉진하고 메타학습을 통해 거의 베이즈 최적에 근접한 행동을 달성한다.
특권적 태스크 정보 없이 심층 RL에서 근사 베이즈 최적 탐색을 위한 실현 가능한 접근법을 개발한다.
관련된 MDP들 간의 불확실성을 포착하는 작업 임베딩 잠재 공간을 학습하고 이를 정책 조건화에 사용한다.
작업 불확실성 하에서 온라인 추론과 행동 선택을 수행하기 위해 변분 추론과 메타학습을 결합한다.

제안 방법

각 태스크를 MDP 임베딩을 포착하는 저차원의 확률적 잠재 변수 m으로 표현한다.
에이전트 경험으로부터 온라인으로 q_phi(m|tau_{:t})의 후방분포를 추론하기 위해 변분 자동인코더를 사용한다.
현재 상태와 행동으로부터 과거 및 미래 상태와 보상을 예측하는 디코더를 학습하여 임베딩을 학습한다.
정의된 정책 pi_psi(a_t|s_t, q_phi(m|tau_{:t}))를 추정된 MDP 임베딩의 후방분포에 조건화한다.
온라인 변분 추론에 대한 ELBO 항(식 10)과 RL 손실을 결합한 합동 목적 함수를 최적화한다.
훈련의 안정성과 효율성을 높이기 위해 실제로 인코더를 통해 RL 손실의 역전파를 피한다.

실험 결과

연구 질문

RQ1특권적 과제 정보 없이도 학습된 작업의 잠재 임베딩이 딥 RL에서 베이지스 적응형 탐색을 가능하게 할 수 있는가?
RQ2MDP 임베딩에 대한 메타학습된 변분 추론이 근사 베이즈 최적 탐색과 기존의 메타-RL 방법들보다 더 높은 온라인 수익을 낳는가?
RQ3VAE 유사 인코더를 통한 작업 불확실성의 온라인 추론이 간단한 격자세계와 MuJoCo 도메인 모두에서 성능을 개선하는가?
RQ4메타학습 및 테스트 동안 과제별 임베딩을 추론하는 동시에 학습된 보상/전이 모델을 여러 과제 간에 공유하는 것이 타당한가?

주요 결과

VariBAD는 격자 세계에서 베이즈 최적 성능에 근접한 탐색 행동을 달성하며 사후 샘플링을 능가한다.
MuJoCo 연속 제어 과제에서 VariBAD는 단일 롤아웃 내에 적응하고 RL^2 등의 경쟁 메타-RL 방법보다 더 높은 온라인 수익을 얻는다.
이 접근법은 작업 식별 이후 집중되는 의미 있는 작업 임베딩의 잠재 공간을 학습한다(분산 감소, 평균 안정화).
본 방법은 추정된 작업 불확실성에 의해 주도되는 구조화된 온라인 탐색을 시演하며, 학습 중에 특권적 작업 정보를 활용하는 기초선보다 일부 설정에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.