[논문 리뷰] Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation
CrossFormer은 20개의 로봇 구현에 걸친 900K 궤적에서 학습된 트랜스포머 기반 정책으로, space alignment 없이도 다양한 로봇을 제어할 수 있으며, 전문 정책과 비슷하거나 이를 능가하고, 이전 cross-embodiment 방법들을 능가합니다.
Modern machine learning systems rely on large datasets to attain broad generalization, and this often poses a challenge in robot learning, where each robotic platform and task might have only a small dataset. By training a single policy across many different kinds of robots, a robot learning method can leverage much broader and more diverse datasets, which in turn can lead to better generalization and robustness. However, training a single policy on multi-robot data is challenging because robots can have widely varying sensors, actuators, and control frequencies. We propose CrossFormer, a scalable and flexible transformer-based policy that can consume data from any embodiment. We train CrossFormer on the largest and most diverse dataset to date, 900K trajectories across 20 different robot embodiments. We demonstrate that the same network weights can control vastly different robots, including single and dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds. Unlike prior work, our model does not require manual alignment of the observation or action spaces. Extensive experiments in the real world show that our method matches the performance of specialist policies tailored for each embodiment, while also significantly outperforming the prior state of the art in cross-embodiment learning.
연구 동기 및 목표
- 다양하고 다중 구현 데이터셋을 활용하는 일반 로봇 정책 구축의 동기를 제시한다.
- 여러 로봇에서의 이질적인 관측과 동작을 처리하는 singlePolicy 아키텍처를 개발한다.
- 크로스-엠버디먼트 학습이 조작, 탐색, 보행, 항공 작업 전반에서 전문가 정책과 대등하게 일치할 수 있음을 입증한다.
- 관찰/동작 공간 정렬이 필요한 기존의 cross-embodiment 방법들보다 이 접근법이 우수함을 보인다.
제안 방법
- CrossFormer를 도입한다, 입력과 출력을 시퀀스로 다루어 가변 관찰 및 동작 공간을 처리하는 강인한 트랜스포머 기반 정책.
- 다중 모달리티(이미지 및 고유감각)로부터 관측치를 토큰화하고 이를 단일 입력 시퀀스로 구성한다.
- 언어 지시나 목표 이미지를 통해 작업 명세를 포함하고 FiLM을 사용하여 가능한 경우 언어와 이미지를 융합한다.
- 시퀀스에 액션 리드아웃 토큰을 삽입하고 모달리티별 액션 헤드를 연결하여 차원에 맞는 액션을 생성한다.
- 고주파 제어 작업에서 시간적 일관성을 개선하고 누적 오차를 줄이기 위해 액션 청킹을 사용한다.
- 20 로봇 구현에 걸친 900K 궤적 데이터셋에서 학습하며, 12층 트랜스포머, 8 어텐션 헤드, 512 임베딩 크기, 130M 매개변수를 사용한다.
실험 결과
연구 질문
- RQ1다양한 로봇 데이터로 학습된 단일 cross-embodied 정책이 대상 데이터로 학습된 정책의 성능에 맞출 수 있는가?
- RQ2cross-embodiment 접근법이 각 설정에서 기존의 최상위 imitation learning 방법보다 일치하거나 능가하는가?
- RQ3강한 cross-embodiment 성능을 위해 관찰 공간과 동작 공간의 수동 정렬이 필요한가?
- RQ4CrossFormer는 학습 데이터에 명시적으로 표현되지 않은 로봇과 작업에 대해 제로샷/제한적 시나리오로 얼마나 일반화되는가?
주요 결과
- CrossFormer은 대상 구현 데이터로 학습된 전문 정책의 성능에 비례한다.
- CrossFormer은 평가된 구현들 전반에서 평균 73%의 성공률을 보이며, 평균적으로 67%(타깃-전용) 기준점을 능가한다.
- CrossFormer은 비교가 존재하는 각 설정에서 최고 상용 imitation learning 방법을 능가한다(평균: 73% 대 51%).
- CrossFormer은 탐색과 조작 작업 모두에서 관찰 공간과 동작 공간의 정렬을 수행하는 이전 방법(Yang et al. 2023/2024)을 크게 능가한다.
- 이 접근법은 강력한 cross-embodiment 성능을 달성하기 위해 관찰 및 동작 공간의 수동 정렬이 필요하지 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.