Skip to main content
QUICK REVIEW

[논문 리뷰] CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning

Ossama Ahmed, Frederik Träuble|arXiv (Cornell University)|2020. 10. 08.
Reinforcement Learning in Robotics참고 문헌 42인용 수 31
한 줄 요약

CausalWorld는 RL에서 인과 구조 학습과 전이 연구를 위해 환경 변수에 대한 개입을 가능하게 하는 매개변수화된 로봇 조작 벤치마크를 도입하며, TriFinger 플랫폼을 통한 커리큘럼 및 시뮬레이션-실세계 전이를 제공합니다.

ABSTRACT

Despite recent successes of reinforcement learning (RL), it remains a challenge for agents to transfer learned skills to related environments. To facilitate research addressing this problem, we propose CausalWorld, a benchmark for causal structure and transfer learning in a robotic manipulation environment. The environment is a simulation of an open-source robotic platform, hence offering the possibility of sim-to-real transfer. Tasks consist of constructing 3D shapes from a given set of blocks - inspired by how children learn to build complex structures. The key strength of CausalWorld is that it provides a combinatorial family of such tasks with common causal structure and underlying factors (including, e.g., robot and object masses, colors, sizes). The user (or the agent) may intervene on all causal variables, which allows for fine-grained control over how similar different tasks (or task distributions) are. One can thus easily define training and evaluation distributions of a desired difficulty level, targeting a specific form of generalization (e.g., only changes in appearance or object mass). Further, this common parametrization facilitates defining curricula by interpolating between an initial and a target task. While users may define their own task distributions, we present eight meaningful distributions as concrete benchmarks, ranging from simple to very challenging, all of which require long-horizon planning as well as precise low-level motor control. Finally, we provide baseline results for a subset of these tasks on distinct training curricula and corresponding evaluation protocols, verifying the feasibility of the tasks in this benchmark.

연구 동기 및 목표

  • 제어 가능한 인과 환경을 통해 RL에서 분포 외 일반화에 대한 연구를 동기부여하고 가능하게 한다.
  • 인과 구조를 공유하는 크고 매개변수화 가능한 로봇 조작 작업 모음을 제공한다.
  • 환경 매개변수에 대한 개입을 허용하여 다양한 일반화 축과 커리큘럼을 연구한다.
  • 작업 간 학습 알고리즘을 비교하기 위한 통합 성공 지표와 평가 프로토콜을 제공한다.

제안 방법

  • 목표 구조를 형성하기 위해 블록을 사용하여 3D 형상으로 구성된 매개변수화된 작업 군을 정의한다.
  • 질량, 색상, 모양, 중력 등 광범위한 인과 변수들을 노출하고 그들에 대한 do-개입을 허용한다.
  • TriFinger 로봇에 대해 구조화된 저차원 관찰 모드와 픽셀 기반 관찰 모드 등의 여러 관찰 모드와 다양한 동작 공간을 지원한다.
  • 커리큘라를 가능하게 하고 분포 외 평가를 위한 학습 및 평가 공간(ATS와 ES)을 도입한다.
  • 다양한 목표를 위한 작업 생성기(Pushing, Picking, Pick and Place, Stacking2, Towers 등)를 제공한다.
  • 다양한 커리큘라와 평가 프로토콜하에서 기초 모델 프리 RL 방법(PPO, SAC, TD3)을 벤치마크한다.

실험 결과

연구 질문

  • RQ1학습 중 환경의 인과 변수를 어떻게 바꾸면 보지 못한 작업으로의 전이가 달라지는가?
  • RQ2통합된 성공 지표 및 커리큘럼 주도 개입이 로봇 조작에서 분포 내/분포 외 일반화를 구분해낼 수 있는가?
  • RQ3다양한 커리큘라하에서 복잡한 다중 물체 목표 형태에 대한 현재 모델-프리 RL 방법의 한계는 무엇인가?
  • RQ4실제 TriFinger 플랫폼으로 정책을 전이할 때 시뮬레이션-실세계 고려가 학습에 어떤 영향을 미치는가?

주요 결과

  • 충분한 학습 하에서 단일 블록의 간단한 작업은 모델-프리 RL 방법이 해결하지만 다중 블록 적재 작업에는 어려움을 겪는다.
  • 목표 형상이나 환경 매개변수를 무작위화하는 커리큘라는 일반화 성능에 현저한 영향을 미치며, 극단적 무작위화는 학습을 방해한다.
  • 목표-형상 무작위화 하에서 새로운 초기 자세에 대한 일반화가 일부 발생하지만, 극단적 도메인 무작위화는 학습을 방해할 수 있다.
  • CausalWorld와 같은 통합된 매개변수화 벤치마크는 질량, 마찰, 색상 등 축에 걸친 분포 내 대 분포 일반화를 명시적으로 평가할 수 있게 한다.
  • 기초 결과는 작업의 실현 가능성을 확인하고 복잡하고 다물체 조작을 위한 유도 편향 또는 구조화된 방법의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.