[논문 리뷰] MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale
MT-Opt는 현실 세계 로봇을 위한 확장 가능하고 오프 정책의 다중 작업 강화 학습 시스템을 제시합니다. 이 시스템은 작업 간 표현과 데이터를 공유함으로써 조작 작업의 레퍼토리를 학습하고, 학습된 성공 탐지기와 작업 모사를 활용하여 새로운 기술을 효율적으로 습득합니다.
General-purpose robotic systems must master a large repertoire of diverse skills to be useful in a range of daily tasks. While reinforcement learning provides a powerful framework for acquiring individual behaviors, the time needed to acquire each skill makes the prospect of a generalist robot trained with RL daunting. In this paper, we study how a large-scale collective robotic learning system can acquire a repertoire of behaviors simultaneously, sharing exploration, experience, and representations across tasks. In this framework new tasks can be continuously instantiated from previously learned tasks improving overall performance and capabilities of the system. To instantiate this system, we develop a scalable and intuitive framework for specifying new tasks through user-provided examples of desired outcomes, devise a multi-robot collective learning system for data collection that simultaneously collects experience for multiple tasks, and develop a scalable and generalizable multi-task deep reinforcement learning method, which we call MT-Opt. We demonstrate how MT-Opt can learn a wide range of skills, including semantic picking (i.e., picking an object from a particular category), placing into various fixtures (e.g., placing a food item onto a plate), covering, aligning, and rearranging. We train and evaluate our system on a set of 12 real-world tasks with data collected from 7 robots, and demonstrate the performance of our system both in terms of its ability to generalize to structurally similar new tasks, and acquire distinct new tasks more quickly by leveraging past experience. We recommend viewing the videos at https://karolhausman.github.io/mt-opt/
연구 동기 및 목표
- 각 각의 작업을 고립적으로 학습하지 않고도 광범위한 기술 레퍼토리를 습득하는 범용 로봇 시스템 구축을 촉진한다.
- 성공 탐지기와 공유 표현을 통해 기존 작업으로부터 새로운 작업을 지속적으로 생성하는 확장 가능한 프레임워크를 제안한다.
- 데이터 수집, 작업 모사, 강화학습 전략을 개발하여 데이터와 계산 비용을 작업 간에 상쇄하기 위해
- 공유 학습이 새로운 작업 습득을 가속하고 더 복잡한 기술을 처리할 수 있게 함을 보여준다.
제안 방법
- 범주형 분포에서 뽑은 다중 작업 Ti를 처리하는 다중 작업 Q 학습 정책 pi(a|s,Ti)를 정의한다.
- QT-Opt를 공통 Q 함수 Q_theta(s,a,Ti)와 다중 작업 손실 L_multi = E_Ti[ L_i(theta) ]를 갖는 다중 작업 설정으로 확장한다.
- 관련 작업 간에 에피소드를 재사용하기 위한 작업 모사(f_I)를 도입하고, 악성 전이와 데이터 희석을 피하기 위한 기술 기반 모사 f_I_skill을 포함한다.
- 다중 작업 데이터의 불균형을 해결하기 위해 배치 수준에서 데이터 재균형(작업 간 및 작업 성공/실패 간)을 적용한다.
- 작업 ID에 조건화된 시각적 성공 탐지기 SD를 학습시켜 최종 결과 이미지에 기반한 희박한 보상을 제공한다.
- 7대 로봇이 수집한 대형 분산 데이터셋으로 오프라인 RL을 사용해 MT-Opt를 훈련하고, 그다음 12개 작업에 대해 평가한다.
실험 결과
연구 질문
- RQ1MT-Opt가 공유 정책과 데이터 파이프라인으로 광범위한 로봇 조작 작업을 학습할 수 있는가?
- RQ2작업 간 데이터 및 표현 공유가 단일 작업 및 순진한 다중 작업 기준선에 비해 학습 효율성과 성능을 향상시키는가?
- RQ3작업 모사가 기술 기반 그룹화와 재균형이 부정적 전이와 데이터 불균형을 완화하는가?
- RQ4더 쉬운 작업이 더 어렵고 관련된 작업의 학습을 부트스트랩할 수 있으며 학습된 기술이 구조적으로 유사한 새로운 작업으로 전달될 수 있는가?
주요 결과
- MT-Opt는 12개의 현실 세계 작업에서 베이스라인 대비 평균 약 3배의 향상을 달성한다.
- MT-Opt는 lift-any에서 89% 성공에 도달하고 7개의 의미적 리프팅 작업과 4개의 배치/재배치 작업에서 베이스라인을 크게 능가한다.
- 공유 작업에서 12-태스크 MT-Opt 정책은 2-태스크 정책보다 더 나은 성능을 보이며, 표현 공유를 통한 넓은 다중 작업 훈련이 성능을 향상시킨다는 것을 시사한다.
- 기술 기반 작업 모사와 데이터 재균형은 특히 대표성이 낮은 작업에서 성능을 크게 향상시키며 일부 경우 최대 10배의 이득이 있다.
- 다수의 작업에 걸친 표현 공유는 다중 작업 정책의 광범위한 능력뿐 아니라 특정 작업의 성능도 향상시킨다.
- MT-Opt가 다중 작업 데이터와 모사를 활용할 때 더 쉬운 작업을 이용해 더 어려운 작업을 부트스트랩하는 것은 효과적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.