QUICK REVIEW

[논문 리뷰] Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

M.H Shridhar, Lucas Manuelli|arXiv (Cornell University)|2022. 09. 12.

Multimodal Machine Learning Applications인용 수 48

한 줄 요약

PerAct는 언어 조건이 있는 Perceiver Transformer를 사용하여 보셀화된 3D 관찰로부터 6-DoF 조작을 학습하고, 제한된 시연으로 18개의 시뮬레이션 RLBench 작업과 7개의 실제 세계 작업을 대상으로 한 단일 다중 작업 BC 에이전트를 가능하게 한다.

ABSTRACT

Transformers have revolutionized vision and natural language processing with their ability to scale with large datasets. But in robotic manipulation, data is both limited and expensive. Can manipulation still benefit from Transformers with the right problem formulation? We investigate this question with PerAct, a language-conditioned behavior-cloning agent for multi-task 6-DoF manipulation. PerAct encodes language goals and RGB-D voxel observations with a Perceiver Transformer, and outputs discretized actions by ``detecting the next best voxel action''. Unlike frameworks that operate on 2D images, the voxelized 3D observation and action space provides a strong structural prior for efficiently learning 6-DoF actions. With this formulation, we train a single multi-task Transformer for 18 RLBench tasks (with 249 variations) and 7 real-world tasks (with 18 variations) from just a few demonstrations per task. Our results show that PerAct significantly outperforms unstructured image-to-action agents and 3D ConvNet baselines for a wide range of tabletop tasks.

연구 동기 및 목표

데이터가 비싸고 제한된 환경에서 로봇 조작을 위해 트랜스포머의 데이터 효율적 사용을 촉진한다.
언어 기반 바인딩을 활용하여 행동 복제를 조건화하는 보셀 기반의 동작 중심 형식을 제안한다.
RGB-D 보셀 관찰과 언어 목표에서 이산화된 6-DoF 동작을 예측하는 PerAct, 즉 Perceiver Transformer 기반 에이전트를 개발한다.
시뮬레이션(RLBench)과 실제 세계 작업에 걸친 광범위한 과제에 대해 접근법을 평가하여 데이터 효율성 및 과제 간 일반화와 다양한 변화에 대한 일반성을 보여준다.

제안 방법

사전 학습된 언어 모델(CLIP)로 언어 목표를 인코딩하고 이를 RGB-D 보셀 패치 인코딩과 융합한다.
관찰 및 동작을 3D 보셀 격자로 표현하여 3D 구조를 활용한 6-DoF 조작을 수행한다.
보셀 관측치를 3D 패치로 분할하고 높은 차원의 입력을 다루기 위해 잠재 벡터 세트를 가진 Perceiver Transformer를 통해 처리한다.
다음 최적 액션 분류기로 이산화된 평행 이동, 회전, 그리퍼 열림 및 충돌 회피 동작을 예측한다.
태스크 완료까지 관찰-실행 루프에서 모션 플래너를 통해 동작을 실행하고 다음 동작을 반복적으로 예측한다.
데모에서 추출된 키프레임 동작에 대해 지도 학습으로 PerAct를 훈련하고 각 동작 구성요소에 대해 교차 엔트로피 손실을 사용한다.

실험 결과

연구 질문

RQ1Transformer 기반 에이전트가 voxel화된 관찰과 언어 목표에서 데이터 효율적 다중 작업 6-DoF 조작을 학습할 수 있는가?
RQ2글로벌 수용 필드 트랜스포머(Perceiver)가 조작 작업에서 로컬 수용 필드 3D CNN 베이스라인을 능가하는가?
RQ3제안된 언어 조건화된 보셀 기반 BC 접근법이 제한된 시연으로 실제 로봗 하드웨어에서 viable한가?

주요 결과

PerAct는 비교적 적은 시연으로 18개의 RLBench 작업(시뮬레이션)과 7개의 실제 작업에서 이미지-투-액션 기초 방법과 3D-ConvNet 기초 방법을 크게 능가한다.
보셀 기반의 행동 중심 형식과 Perceiver Transformer가 전역 수용 필드와 다중 시점 융합을 활용하여 견고한 6-DoF 동작 예측을 제공한다.
언어 조건화는 필수적이다; 언어 조건화를 제거하면 성능이 거의 확률 수준으로 떨어진다.
변수 분석은 Perceiver 백본과 신중하게 선택된 키프레임이 좋은 성능에 결정적임을 보여준다; 단순하거나 고정된 키프레임은 결과를 악화시킨다.
Perceiver 렌트의 수와 보셀 해상도를 증가시키면 일반적으로 성능이 향상되며, 회전 교란이 강인성을 돕는다.
실제 로봇 실험은 53회의 시연으로 7개의 과제에서 의미 있는 성공을 달성할 수 있음을 보여주며, 무거운 사전 학습 없이 시뮬-실제 간 가능성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.