[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2는 대형 비전-언어 모델을 로봇 동작 출력으로 미세조정하여 엔드-투-엔드 제어를 가능하게 하며, 향상된 일반화와 출현적 의미 추론을 위해 웹 규모의 비전-언어 사전 학습을 계승합니다.
We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).
연구 동기 및 목표
- 로봇 제어 일반화를 향상시키기 위해 웹 규모의 비전-언어 사전 학습을 활용한다.
- 관찰을 행동으로 매핑하는 하나의 엔드투-엔드 모델을 가능하게 하되 언어 기반 의미를 활용한다.
- 로봇 작업에서 웹 규모 학습으로부터 나타나는 출현적 능력을 조사한다.
- 로봇 궤적과 웹 데이터를 함께 미세조정하는 것이 성능과 일반화에 어떤 영향을 미치는지 평가한다.
제안 방법
- 로봇 동작을 텍스트 토큰으로 표현하고 비전-언어 모델이 자연어 출력과 함께 동작 토큰을 출력하도록 학습한다.
- 사전 학습된 비전-언어 모델(PaLI-X 및 PaLM-E)을 로봇 궤적과 웹 규모 비전-언어 작업의 조합에 대해 미세조정한다.
- 웹에서 학습된 개념을 보존하면서 로봇 제어에 적응하기 위해 로봇 데이터와 웹 데이터를 함께 미세조정한다.
- 6-DoF 동작 공간을 각 차원마다 256개 구간으로 이산화하고 모델 어휘 내 토큰에 매핑한다.
- 로봇 작업 프롬프트 중 디코딩이 유효한 동작 토큰만 사용하도록 제약하여 실행 가능한 출력이 되도록 한다.
- 55B 모델의 경우 1–3 Hz를 달성하기 위해 다중 TPU 인프라를 갖춘 클라우드 서비스에 대형 모델을 배포하여 실시간 추론을 가능하게 한다.
실험 결과
연구 질문
- RQ1RT-2 모델이 보조 기준선과 비교했을 때 보지 못한 물체, 배경 및 환경에 얼마나 잘 일반화되는가?
- RQ2웹 규모 비전-언어 사전 학습에서 로봇 제어로 전이되는 출현적 능력은 무엇인가?
- RQ3모델 크기 및 학습 전략(웹 규모 학습과 함께 미세조정 vs 처음부터 미세조정)이 일반화에 어떤 영향을 미치는가?
- RQ4사고의 흐름 프롬프트(chain-of-thought)가 로봇 조작에서 RT-2의 추론 및 작업 성공을 향상시킬 수 있는가?
주요 결과
- RT-2(PaLI-X 및 PaLM-E 변형)은 RT-1 및 MOO에 비해 객체, 장면 및 지시사항에 대한 일반화를 크게 향상시키며, 다양한 테스트에서 약 2배에서 6배 정도 개선된다.
- RT-2는 의미적으로 지시된 위치에 물체를 배치하거나 관계에 기반해 물체를 선택하는 등 출현적 의미 추론을 가능하게 한다.
- 사고의 흐름 프롬프트가 다단계 의미 추론을 가능케 하여 계획-실행 능력을 개선한다.
- 더 큰 RT-2 모델일수록 일반화가 더 잘되며, 웹 데이터와 함께 미세조정하는 것이 로봇 데이터만으로 미세조정하는 것보다 일반화가 더 강하다.
- Language-Table 시뮬레이션에서 RT-2-PaLI-3B가 기준선을 능가하여 웹 규모의 사전 학습 이점이 로봇공학과 유사한 다른 작업으로의 전이됨을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.