QUICK REVIEW

[논문 리뷰] Solving Rubik's Cube with a Robot Hand

OpenAI, Ilge Akkaya|arXiv (Cornell University)|2019. 10. 16.

Domain Adaptation and Few-Shot Learning참고 문헌 111인용 수 630

한 줄 요약

본 논문은 제어 정책과 비전 상태 추정기를 완전히 시뮬레이션에서 학습시키고 자동 도메인 랜덤화(ADR)를 사용하여 인간형 로봇 손으로 루빅스 큐브를 해결하는 방법을 제시하며, 효과적인 시뮬레이션-현실(sim2real) 전이 성과를 보여준다.

ABSTRACT

We demonstrate that models trained only in simulation can be used to solve a manipulation problem of unprecedented complexity on a real robot. This is made possible by two key components: a novel algorithm, which we call automatic domain randomization (ADR) and a robot platform built for machine learning. ADR automatically generates a distribution over randomized environments of ever-increasing difficulty. Control policies and vision state estimators trained with ADR exhibit vastly improved sim2real transfer. For control policies, memory-augmented models trained on an ADR-generated distribution of environments show clear signs of emergent meta-learning at test time. The combination of ADR with our custom robot platform allows us to solve a Rubik's cube with a humanoid robot hand, which involves both control and state estimation problems. Videos summarizing our results are available: https://openai.com/blog/solving-rubiks-cube/

연구 동기 및 목표

시뮬레이션 데이터만으로 학습시키는 다섯 손가락 humanoid 손으로 루빅스 큐브를 해결하는 것을 시연한다.
제어 정책과 비전 모델을 위해 점차 확장되는 다양한 학습 환경을 생성하기 위해 자동 도메인 랜덤화(ADR)를 도입한다.
ADR로 학습된 정책이 실제 하드웨어로 전이되는 이유와 출현하는 메타학습이 발생하는지 조사한다.
관련 조작 및 sensing 작업을 밀접하게 모델링하는 로봇 플랫폼과 동반 시뮬레이션 파이프라인을 구축한다.]
method:[
무작위화된 시뮬레이션 환경들에 대한 분포를 점진적으로 확장하는 새로운 ADR 알고리즘을 개발한다.
랜덤화된 작업을 해결하기 위해 강화 학습을 통해 메모리 보강 제어 정책(LSTM 기반)을 학습시킨다.
ADR-생성 시뮬레이션에서 렌더링된 이미지를 사용하여 시각 기반 루빅스 큐브 포즈 추정기를 학습한다.
MuJoCo 기반의 Shadow Dexterous Hand와 3D 루빅스 큐브의 상세한 시뮬레이션을 모델링하여 시뮬레이션-실제 간의 간극을 좁히기 위해.
매개변수, 데이터 및 성능 버퍼를 위한 중앙 집중식 저장소(Redis)를 갖춘 분산형 ADR 주도 학습 파이프라인을 사용한다.]
research_questions:[
ADR로만 시뮬레이션에서 학습된 모델이 인간형 손에 의해 루빅스 큐브의 실제 세계 조작으로 효과적으로 전이될 수 있는가?
ADR 하에서 메모리 보강 정책 학습이 실제 환경에서 배포될 때 출현하는 메타학습을 보이는가?
자동 도메인 랜덤화와 수동 도메인 랜덤화는 강건한 시뮬레이션-실제 전이를 달성하는 데 어떻게 비교되는가?
복잡한 조작 작업을 위한 ADR 지원을 위한 물리적 및 시뮬레이션 플랫폼의 주요 설계 고려사항은 무엇인가?]
key_findings:[
ADR은 루빅스 큐브와 다섯 손가락 손이 포함된 복잡한 조작 작업에 대해 성공적인 시뮬레이션-실제 전이를 가능하게 한다.
확장되는 ADR 분포로 학습된 메모리 보강 정책은 테스트 시점에 출현하는 메타학습의 징후를 보인다.
ADR하에서 학습된 비전 상태 추정기는 실제 세계에서 RGB 카메라 피드로부터 큐브의 자세와 면 각도를 예측할 수 있다.
시뮬레이션 현실성의 체계적 증강(손 역학, 큐브 모델, 센서 노이즈)은 전이 성능을 향상시킨다.
전용 로봇 플랫폼과 확장 가능하고 분산된 ADR 학습 파이프라인은 효율적인 학습 및 평가를 지원한다.]
table_headers:[]
table_rows:[]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.

[논문 리뷰] Solving Rubik's Cube with a Robot Hand

연구 동기 및 목표

관련 연구

더 나은 연구,지금 바로 시작하세요