QUICK REVIEW

[논문 리뷰] Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Tianhe Yu, Deirdre Quillen|arXiv (Cornell University)|2019. 10. 24.

Reinforcement Learning in Robotics참고 문헌 58인용 수 282

한 줄 요약

이 논문은 멀티-작업 강화학습(MRL)과 메타 강화학습(meta-RL)을 평가하기 위한 50개의 다양한 로봇 조작 작업으로 구성된 오픈 소스 벤치마크 Meta-World를 소개하고, 현재 방법들의 실험적 비교를 통해 작업 세트 간 일반화의 도전 과제를 강조합니다.

ABSTRACT

Meta-reinforcement learning algorithms can enable robots to acquire new skills much more quickly, by leveraging prior experience to learn how to learn. However, much of the current research on meta-reinforcement learning focuses on task distributions that are very narrow. For example, a commonly used meta-reinforcement learning benchmark uses different running velocities for a simulated robot as different tasks. When policies are meta-trained on such narrow task distributions, they cannot possibly generalize to more quickly acquire entirely new tasks. Therefore, if the aim of these methods is to enable faster acquisition of entirely new behaviors, we must evaluate them on task distributions that are sufficiently broad to enable generalization to new behaviors. In this paper, we propose an open-source simulated benchmark for meta-reinforcement learning and multi-task learning consisting of 50 distinct robotic manipulation tasks. Our aim is to make it possible to develop algorithms that generalize to accelerate the acquisition of entirely new, held-out tasks. We evaluate 7 state-of-the-art meta-reinforcement learning and multi-task learning algorithms on these tasks. Surprisingly, while each task and its variations (e.g., with different object positions) can be learned with reasonable success, these algorithms struggle to learn with multiple tasks at the same time, even with as few as ten distinct training tasks. Our analysis and open-source environments pave the way for future research in multi-task learning and meta-learning that can enable meaningful generalization, thereby unlocking the full potential of these methods.

연구 동기 및 목표

메타-RL 및 다중 작업 RL에서 의미 있게 이질적인 작업들에 일반화할 수 있는 벤치마크의 필요성을 제시한다.
효율적인 학습을 위한 공통 구조를 갖춘 50-task 조작 스위트인 Meta-World를 제안한다.
새롭게 보유된(held-out) 작업으로의 일반화 및 전이 성능을 평가하기 위한 평가 프로토콜과 베이스라인을 제공한다.
다수의 작업에서 학습하는 현재 방법이 어디에서 부족한지 그리고 새로운 작업으로의 일반화에 대한 통찰을 제시한다.

제안 방법

공통 Sawer 로봇 환경을 공유하는 50개의 조작 작업에 대한 광범위한 작업 분포를 정의한다.
단일화된 행동 공간(엔드이펙터 델타 및 그리퍼 토크)과 고정된 39차원 관측 벡터를 제공한다.
학습과 전 purposes를 가능하게 하는 일관된 구조의 잘 형성된 다구성 보상 함수를 설계한다.
학습 일반화 가능성을 극대화하기 위해 파라메트릭(물체/목표 위치)과 비파라미트릭 구분을 통해 작업 변형을 구현한다.
메타 RL 및 다중 작업 RL 평가 프로토콜을 확립하며 난이도 변화(ML1, MT1, MT10, MT50, ML10, ML45)가 있다.
Meta-World에서 다중 작업 RL(PPO, TRPO, SAC, Task Embeddings) 및 메타 RL(RL2, MAML, PEARL)의 알고리즘을 벤치마크하고 비교한다.

실험 결과

연구 질문

RQ1학습이 광범위하고 구조화된 작업 분포에서 훈련된 직후 완전히 새로운 작업에 신속하게 적응할 수 있는가?
RQ2다수의 관련 작업에서 단일 정책을 학습하는 다중 작업 RL 방법은 얼마나 잘 작동하며, 작업/환경 수가 늘어남에 따라 성능이 어떻게 확장되는가?
RQ3대표적인 메타-RL 및 다중 작업 RL 알고리즘의 강점과 약점은 다양한 조작 작업에서 무엇인가?
RQ4현재 방법들이 Meta-World 내의 메타 훈련 작업에서 보유된 테스트 작업으로 일반화하는 정도는 어느 정도인가?
RQ5로봇 공학에서 truly generalizable meta-learning으로의 미래 개발을 이끄는 벤치마크와 평가 프로토콜은 무엇이 필요한가?

주요 결과

현대의 메타-RL 방법은 다양한 작업 세트에서 메타 학습되더라도 뚜렷하게 새로운 작업으로의 일반화가 제한적이다.
다중 작업 SAC은 MT1/MT10/MT50 설정 중 MT10에서 가장 높은 성과를 달성하지만 MT50으로 확장하는 데에는 어려움을 겪는다.
메타-RL 방법인 MAML과 RL2는 어느 정도의 메타 훈련 및 일반화 능력을 보이나, PEARL은 많은 설정에서 성능이 더 약하게 나타난다.
ML10과 ML45 전반에서 메타 훈련 성능은 강하지만 메타 테스트(일반화) 성능은 여전히 미미하여 최적화 및 일반화 간의 격차를 나타낸다.
이 벤치마크는 메타-RL 및 다중 작업 RL에서 광범위한 작업 일반화를 가능하게 하려면 알고리즘 개선이 상당한 여지가 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.