QUICK REVIEW

[논문 리뷰] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Tony Z. Zhao, Vikas Kumar|arXiv (Cornell University)|2023. 04. 23.

Robot Manipulation and Learning인용 수 11

한 줄 요약

본 논문은 저비용의 양손 원격 조작 시스템 ALOHA와 트랜스포머를 이용해 동작 청크를 예측하는 모방학습 알고리즘 ACT를 제시한다. 이를 통해 약 10분의 시연으로 6개의 실제 세계 미세 조작 과제를 달성한다.

ABSTRACT

Fine manipulation tasks, such as threading cable ties or slotting a battery, are notoriously difficult for robots because they require precision, careful coordination of contact forces, and closed-loop visual feedback. Performing these tasks typically requires high-end robots, accurate sensors, or careful calibration, which can be expensive and difficult to set up. Can learning enable low-cost and imprecise hardware to perform these fine manipulation tasks? We present a low-cost system that performs end-to-end imitation learning directly from real demonstrations, collected with a custom teleoperation interface. Imitation learning, however, presents its own challenges, particularly in high-precision domains: errors in the policy can compound over time, and human demonstrations can be non-stationary. To address these challenges, we develop a simple yet novel algorithm, Action Chunking with Transformers (ACT), which learns a generative model over action sequences. ACT allows the robot to learn 6 difficult tasks in the real world, such as opening a translucent condiment cup and slotting a battery with 80-90% success, with only 10 minutes worth of demonstrations. Project website: https://tonyzhaozh.github.io/aloha/

연구 동기 및 목표

실제 시연으로부터의 엔드투엔드 모방 학습을 사용하여 저비용 하드웨어에서 미세 조작을 학습할 수 있음을 입증한다.
고품질 데이터를 수집하기 위한 작고 경제적인 원격 조작 구성(ALOHA)을 개발한다.
효과적 시야를 줄이고 고정밀 작업에서 누적 오차를 완화하는 새로운 학습 알고리즘(ACT)을 제안한다.
ACT가 실제 환경의 이중 팔 조작 과제 모음에서 기존의 모방 학습 방법들보다 우수하다는 것을 보인다.]
method:[
실제 시연으로부터의 엔드투엔드 모방 학습을 사용하여 저비용 하드웨어에서 미세 조작을 학습할 수 있음을 입증한다.
고품질 데이터를 수집하기 위한 작고 경제적인 원격 조작 구성(ALOHA)을 개발한다.
효과적 시야를 줄이고 고정밀 작업에서 누적 오차를 완화하는 새로운 학습 알고리즘(ACT)을 제안한다.
ACT가 실제 환경의 이중 팔 조작 과제 모음에서 기존의 모방 학습 방법들보다 우수하다는 것을 보인다.

제안 방법

다음 k 타임스텝의 일련의 동작을 예측하는 액션 청크를 사용하는 Transformer 기반 ACT를 도입한다.
인간 시연의 변동성 포착하기 위해 ACT를 조건부 변분 자동인코더(CVAE)로 학습시키고, 시퀀스 모델링을 위해 트랜스포머 기반 인코더/디코더를 사용한다.
일관된 고정밀 궤적을 생성하기 위해 액션 청크를 중첩시키고 예측치를 평균화하여 시간적 앙상블을 적용한다.
인코더가 스타일 변수 z를 출력하고 디코더(정책)가 z와 현재 관측치(이미지 + 관절 위치)에 조건화된 k-스텝 액션 시퀀스를 출력하는 CVAE로 ACT를 구현한다.
엔드투엔드 픽셀-투-액션 매핑(RGB 이미지에서 관절 동작으로)과 ALOHA로 수집한 실제 시연 데이터를 사용해 학습한다.
저비용 하드웨어 접근법(두 대의 ViperX 6-DoF 암과 맞춤형 3D 프린트 부품)과 리더 로봇에서 팔 관절 공간 매핑을 통한 팔로워 로봇의 원격 조작을 유지한다.

실험 결과

연구 질문

RQ1저비용이고 정밀하지 않은 하드웨어 설정이 실제 시연으로부터의 학습을 사용해 미세한 이중 팔 조작을 수행할 수 있는가?
RQ2액션 청크를 이용한 모방 학습 방식이 고정밀 작업에서 한 단계 정책보다 안정성과 정밀도를 향상시키는가?
RQ3시간적 앙상블과 CVAE 기반 목적이 불완전한 인간 시연으로부터의 학습에 어떤 영향을 미치는가?
RQ4소스 실세계 과제인 양념통 열기나 배터리 슬롯 삽입과 같은 실제 세계 과제에서 제안된 시스템의 실용적 성능은 어떠한가?

주요 결과

ACT는 시뮬레이션과 실제 과제 모두에서 기존의 모방 학습 방법들보다 훨씬 우수하다.
실제 과제 Slide Ziploc 및 Slot Battery에서 ACT는 각각 88%와 96%의 최종 성공률을 달성하는 반면, 다른 방법은 초기 하위 작업 이후 정체한다.
두 개의 시뮬레이션 과제와 두 개의 실제 과제에서 ACT는 작업 및 데이터 소스에 따라 최상의 이전 방법보다 20-59 퍼센트포인트 향상시킨다.
통합된 ALOHA 원격조작 시스템은 약 $20k 예산으로 구축되었고, 정밀하고 접촉이 풍부하며 동적인 작업을 실시간 데이터 수집 워크플로우로 지원한다.
ACT 학습에는 단일 RTX 2080 Ti GPU에서 약 5시간이 소요되며, 추론은 약 0.01초로 실시간 제어에 적합하다.
학습에 사용된 시연 데이터는 실제 과제당 약 10-20분의 시연 데이터가 사용되어 효율적인 데이터 수집을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.