QUICK REVIEW

[논문 리뷰] Meta reinforcement learning as task inference

Jan Humplik, Alexandre Galashov|arXiv (Cornell University)|2019. 05. 15.

Reinforcement Learning in Robotics참고 문헌 56인용 수 63

한 줄 요약

이 논문은 메타 강화 학습을 POMDP에서 미지의 작업을 추론하는 것으로 프레이밍하고, belief 모듈이 작업 포스터리를 추정하는 반면 정책은 상태 및 belief에 대해 작동하는 두 스트림 에이전트를 학습시킨다. 특권 작업 정보를 활용한 감독 학습된 신념 학습이 학습 속도를 높이고 성능을 향상시키며, 희박한 보상이 있는 장기 지향 연속 제어에서도 포함된다.

ABSTRACT

Humans achieve efficient learning by relying on prior knowledge about the structure of naturally occurring tasks. There is considerable interest in designing reinforcement learning (RL) algorithms with similar properties. This includes proposals to learn the learning algorithm itself, an idea also known as meta learning. One formal interpretation of this idea is as a partially observable multi-task RL problem in which task information is hidden from the agent. Such unknown task problems can be reduced to Markov decision processes (MDPs) by augmenting an agent's observations with an estimate of the belief about the task based on past experience. However estimating the belief state is intractable in most partially-observed MDPs. We propose a method that separately learns the policy and the task belief by taking advantage of various kinds of privileged information. Our approach can be very effective at solving standard meta-RL environments, as well as a complex continuous control environment with sparse rewards and requiring long-term memory.

연구 동기 및 목표

학습-학습(learning to learn)을 다중 작업 RL 설정에서 작업을 숨겨진 변수로 취급하여 동기를 부여한다.
작업 신념과 제어 정책을 개별적으로 학습하는 두 스트림 에이전트를 제안한다.
작업 포스터를 추정하는 신념 네트워크를 훈련하기 위해 특권 감독 학습을 활용한다.
샘플 효율성의 오프-정책 학습의 장점과 재생 데이터 일반화를 개선하는 정보 병목 정규화의 이점을 보여준다.

제안 방법

상태 (x, w)에서 w는 관찰되지 않는 작업인 POMDP로 메타-RL을 형식화하고, 작업 포스터 b_t(w)는轨迹 데이터에서 업데이트된다.
특권 작업 정보를 사용하는 h_t(예: 작업 설명, 전문가 행동, 작업 임베딩)를 이용해 근사 신념 ϲASTCALL b_t(h_t| au_{0:t})를 출력하는 신념 네트워크를 도입한다.
신념 네트워크를 보조 감독 손실로 학습하여 실제 작업 정보를 모방하고 포스터에 대한 로그 손실 또는 KL 발산을 최소화한다.
정책(및 선택적으로 비평가)이 전체 이력이 아니라 (x_t, ϲAST b_t)에서 조건화되도록 이중 스트림 구조를 사용하며, 신념 네트워크로부터의 그래디언트가 분리된다.
오프-정책 SVG(0) (엔트로피 정규화 포함)를 탐색하고 PPO와 비교하며, 재생 데이터의 일반화를 개선하기 위해 정보 병목(IB) 정규화를 도입한다.
특권-네트워크 에이전트를 기저선 LSTM 및 보조 헤드 변형과 비교하고, 희박한 보상과 장기 기억을 포함한 다수의 메타-RL 환경에서 평가한다.

실험 결과

연구 질문

RQ1특권 정보를 훈련 작업에 대해 활용하여 메타-RL 적응 속도를 높이는 유용한 신념 표현을 학습할 수 있는가?
RQ2작업 추론을 제어로부터 분리하는 것이 샘플 효율성을 향상시키는가, 특히 오프-정책 학습에서?
RQ3정보 병목 정규화가 신념 기반 메타-RL의 일반화와 학습 속도에 어떤 영향을 미치는가?
RQ4장기 기억 및 희박한 보상에 대한 복잡한 연속 제어 작업으로 프레임워크가 확장될 수 있는가?

주요 결과

작업 설명으로 감독 학습된 신념 학습이 여러 메타-RL 환경에서 학습 속도를 높이고 최종 성능을 향상시킨다.
신념 스트림이 있는 오프-정책 SVG(0)는 간단한 작업에서 온-정책 PPO보다 샘플 효율이 높고, IB 정규화는 일반화 격차를 감소시킨다.
신념-네트워크 에이전트는 희박한 보상 및 장기 기억 수요를 포함한 더 어려운 환경에서 보조 헤드 및 기초 LSTM 에이전트보다 성능이 우수하다.
작업 설명에 대한 감독은 훈련 작업 ID를 예측하거나 비구조화된 목표를 예측하는 것보다 일반적으로 더 나은 포스터 추정을 제공한다.
Numpad 작업에서 신념 기반 접근은 에피소드 전체에 걸친 더 넓은 탐색을 유도해 톰슨 샘플링과 유사한 방법들보다 더 빠른 적응을 달성한다(예: PEARL과 같은 방법).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.