QUICK REVIEW

[논문 리뷰] Real-World Robot Learning with Masked Visual Pre-training

Ilija Radosavovic, Tete Xiao|arXiv (Cornell University)|2022. 10. 06.

Multimodal Machine Learning Applications인용 수 27

한 줄 요약

본 논문은 대규모 현장 데이터를 활용한 마스크드 이미지 모델링(MAE)을 통한 자기지도 시각 사전학습이 고정 인코더 정책을 낳아 CLIP, ImageNet 사전학습, 그리고 무학습에서의 학습보다 실제 세계 로봇 작업에서 우수하다는 것을 보여주며, 강력한 스케일링 효과가 있음을 시사한다.

ABSTRACT

In this work, we explore self-supervised visual pre-training on images from diverse, in-the-wild videos for real-world robotic tasks. Like prior work, our visual representations are pre-trained via a masked autoencoder (MAE), frozen, and then passed into a learnable control module. Unlike prior work, we show that the pre-trained representations are effective across a range of real-world robotic tasks and embodiments. We find that our encoder consistently outperforms CLIP (up to 75%), supervised ImageNet pre-training (up to 81%), and training from scratch (up to 81%). Finally, we train a 307M parameter vision transformer on a massive collection of 4.5M images from the Internet and egocentric videos, and demonstrate clearly the benefits of scaling visual pre-training for robot learning.

연구 동기 및 목표

다양하고 현장(in-the-wild) 데이터를 활용하여 실제 로봇공학에 전달 가능한 시각 표현을 학습하도록 동기를 부여한다.
대규모 ViT 인코더로의 마스크드 시각 사전학습이 다운스트림 로봇 조작 작업을 개선함을 입증한다.
모델과 데이터의 확장이 실제 로봇 학습 성능을 향상시킴을 보여준다.

제안 방법

Ego4D, ImageNet, Epic Kitchens, Something-Something 등에서 4.5M 프레임의 대규모 다양 이미지 데이터셋을 구축한다.
높은 마스킹 비율과 인코더-디코더 설계를 사용하여 MAE로 시각 인코더를 사전학습한다.
MAE 백본 인코더를 고정하고 태스크당 20–80개의 시연으로 행동 복제(behavior cloning)를 통해 상단에 제어 정책을 학습한다.
모델 및 데이터 규모의 영향을 연구하기 위해 최대 307M 파라미터의 ViT 백본을 사용한다.
고정된 이미지 특징과 고유감각 상태를 결합한 컨트롤러를 학습하여 delta joint angles를 예측한다.
깊이(depth) 없이 손목 카메라를 사용한 7-DoF 로봇팔에서 981건의 실제 실험을 평가한다.

실험 결과

연구 질문

RQ1다양한 실제 세계 데이터에서 MAE 기반 자기지도 사전학습이 표현을 생성하고 이를 서로 다른 구현에서 실제 로봇 작업으로 전달하는가?
RQ2인코더를 고정한 상태에서 모델 크기와 데이터 규모가 실제 로봇 학습에 어떤 영향을 미치는가?
RQ3제안된 방법이 CLIP, 감독된 ImageNet 사전학습, 그리고 무학습에서의 학습과 실제 로봇 작업에서 어떻게 비교되는가?
RQ4센서 설정(카메라 시점) 및 입력 모달리티가 전달 성능에 미치는 영향은 무엇인가?
RQ5다운스트림 작업에 대한 샘플 효율성(시연 수)의 함의는 무엇인가?

주요 결과

모델 / 설정	매개변수	작업 성능 (PickFruit 맥락)
R3M (video-text)	23 M	31.3%
CLIP (image-text)	86 M	18.8%
Ours (image-only) ViT-S	22 M	68.8%
Ours (image-only) ViT-B	86 M	93.8%
Ours (image-only) ViT-L	307 M	100.0%

MAE 사전학습의 인코더 표현은 다운스트림 태스크에서 CLIP, 감독된 ImageNet, 그리고 scratch 기준선보다 최대 75–81% 더 좋은 성능을 보인다.
모델 크기(ViT-S에서 ViT-Large)와 데이터 규모(HoI 대 Ego4D+ImageNet+HoI)를 함께 확장하면 측정 가능한 이득이 생기며, harder tasks에서 더 큰 이득이 나타난다.
고정된 MAE 인코더를 사용하면 샘플 효율이 향상되어 기준선의 약 절반 정도의 시연으로도 강한 성능을 달성한다.
4.5M 이미지로 학습된 307M 파라미터 ViT 인코더가 최상의 실제 세계 결과를 달성하며, 로봇 공학에서 데이터 규모의 이점을 강조한다.
동시대 R3M 모델과 비교해 비디오-언어 데이터로 학습된 모델과 비교하여 이미지 전용 자기지도 접근 방식이 상당히 우수하다(예: PickFruit에서 ViT-B의 68.8% 대 31.3%).
카메라 선택은 중요하다: 손목 부착일인 1인칭 시점이 미세한 위치 추정에서 제3자 시점보다 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.