[논문 리뷰] RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation
RoboTurk은 모바일 기기를 통해 6-DoF 로봇 시연을 크라우드소싱하고, 모방 학습 데이터 수집, 네트워크 조건에 대한 강건성, 그리고 대규모 시연 데이터 세트로부터의 효과적인 정책 학습을 가능하게 한다.
Imitation Learning has empowered recent advances in learning robotic manipulation tasks by addressing shortcomings of Reinforcement Learning such as exploration and reward specification. However, research in this area has been limited to modest-sized datasets due to the difficulty of collecting large quantities of task demonstrations through existing mechanisms. This work introduces RoboTurk to address this challenge. RoboTurk is a crowdsourcing platform for high quality 6-DoF trajectory based teleoperation through the use of widely available mobile devices (e.g. iPhone). We evaluate RoboTurk on three manipulation tasks of varying timescales (15-120s) and observe that our user interface is statistically similar to special purpose hardware such as virtual reality controllers in terms of task completion times. Furthermore, we observe that poor network conditions, such as low bandwidth and high delay links, do not substantially affect the remote users' ability to perform task demonstrations successfully on RoboTurk. Lastly, we demonstrate the efficacy of RoboTurk through the collection of a pilot dataset; using RoboTurk, we collected 137.5 hours of manipulation data from remote workers, amounting to over 2200 successful task demonstrations in 22 hours of total system usage. We show that the data obtained through RoboTurk enables policy learning on multi-step manipulation tasks with sparse rewards and that using larger quantities of demonstrations during policy learning provides benefits in terms of both learning consistency and final performance. For additional results, videos, and to download our pilot dataset, visit $\\href{http://roboturk.stanford.edu/}{\ exttt{roboturk.stanford.edu}}$
연구 동기 및 목표
- 데이터 병목 현상을 해결하기 위해 모방 학습용 고품질 로봇 시연의 확장 가능한 수집을 촉진한다.
- 일상적으로 이용 가능한 기기(iPhone)를 이용해 시뮬레이션 로봇을 실시간으로 원격 작동시키는 크라우드소싱 플랫폼을 설계한다.
- 사용자 인터페이스 및 네트워크 강건성을 평가하여 RoboTurk이 VR 하드웨어의 성능에 근접하고 불안정한 연결에도 견딜 수 있음을 보인다.
- 시범 시연 데이터 세트를 구성하고 이 데이터를 이용한 희소 보상에서의 정책 학습을 입증한다.
제안 방법
- 저지연 제어를 위한 WebRTC로 비디오와 원격 조작 명령을 스트리밍하는 클라우드 기반 플랫폼을 구현한다.
- ARKit를 탑재한 iPhone을 모션 컨트롤러로 사용하여 포즈를 로봇 엔드 이펙터의 움직임으로 매핑한다.
- 확장 가능한 다중 사용자 운영을 위해 사용자별로 전용 원격 조작 세션을 생성하는 조정 서버를 제공한다.
- 새로운 작업, 시뮬레이터, 로봇으로 쉽게 확장할 수 있도록 모듈형 아키텍처를 적용한다.
- 인터페이스(키보드, 3D 마우스, VR 컨트롤러, 폰)를 비교하는 사용자 연구를 수행하고 다양한 네트워크 조건에서의 성능을 평가한다.
- 실험용 데이터 세트를 수집·공개한다(2200건이 넘는 시연, 137시간) 이를 통해 시연 기반 강화학습을 가능하게 한다.
실험 결과
연구 질문
- RQ1일반적인 기기를 사용한 크라우드소싱으로 RoboTurk가 대규모의 고품질 원격 조작 시연을 수집할 수 있는가?
- RQ2iPhone 기반 인터페이스가 VR 및 다른 입력에 비해 작업 완료 시간 측면에서 어떻게 비교되는가?
- RQ3원격 원격 조작을 위한 RoboTurk 시연이 네트워크 지연 및 대역폭 변화에 얼마나 강건한가?
- RQ4더 큰 시연 데이터 세트가 희소 보상 조작 작업의 정책 학습을 개선하는가?
주요 결과
- 폰 인터페이스는 선택 작업에서 VR 컨트롤러와 통계적으로 유사한 완료 시간을 달성하며 키보드나 3D 마우스보다 현저히 빠르다.
- 기준선에서 낮은 대역폭/높은 지연의 네트워크 조건에 이르기까지 완료 시간 분포가 비슷하게 유지되어 강건성을 보인다.
- 시범 데이터 세트에는 20시간의 사용으로 2200건이 넘는 성공 시연을 포함한 137시간의 데이터가 포함된다.
- 시연으로부터의 정책 학습은 더 많은 시연 수에서 이점을 얻으며, 1000건의 시연이 can-picking과 round-assembly 작업 모두에서 평균 성능이 가장 좋았다.
- 시연은 PPO를 통해 데모 상태에서 RL 에피소드를 초기화하여 크라우드소싱 데이터로부터의 희소 보상 조작 학습의 실현 가능성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.