QUICK REVIEW

[논문 리뷰] R3M: A Universal Visual Representation for Robot Manipulation

Suraj Nair, Aravind Rajeswaran|arXiv (Cornell University)|2022. 03. 23.

Multimodal Machine Learning Applications인용 수 82

한 줄 요약

R3M은 다양한 인간 비디오(Ego4D)에서 시간 대비 학습, 비디오-언어 정렬, 희소성을 활용하여 재사용 가능한 시각 표현을 사전 학습하고, 시뮬레이션 및 실제 작업 전반에서 데이터 효율적인 다운스트림 로봇 조작을 가능하게 한다. 12개 작업에서 CLIP, ImageNet, MoCo 베이스라인을 능가하고, 단 20회의 시연으로 실제 세계 학습을 가능하게 한다.

ABSTRACT

We study how visual representations pre-trained on diverse human video data can enable data-efficient learning of downstream robotic manipulation tasks. Concretely, we pre-train a visual representation using the Ego4D human video dataset using a combination of time-contrastive learning, video-language alignment, and an L1 penalty to encourage sparse and compact representations. The resulting representation, R3M, can be used as a frozen perception module for downstream policy learning. Across a suite of 12 simulated robot manipulation tasks, we find that R3M improves task success by over 20% compared to training from scratch and by over 10% compared to state-of-the-art visual representations like CLIP and MoCo. Furthermore, R3M enables a Franka Emika Panda arm to learn a range of manipulation tasks in a real, cluttered apartment given just 20 demonstrations. Code and pre-trained models are available at https://tinyurl.com/robotr3m.

연구 동기 및 목표

환경과 작업 전반에 일반화되는 보편적이고 재사용 가능한 로봇용 비전 모델의 필요성을 제시한다.
조작을 위한 단일 시각 인코더를 사전 학습하기 위해 다양한 인간 비디오 데이터를 활용한다.
제한된 데이터로 다운스트림 정책 학습을 지원하는 간결하고 상호작용 인지형 표현을 만든다.

제안 방법

Ego4D에서 세 가지 손실을 사용하여 고정된 이미지 인코더 F_phi를 학습한다: 시간 대비 학습으로 시간 동적성을 포착하고, 비디오-언어 정렬로 의미적 관련성을 인코딩하며, 희소성을 촉진하기 위한 L1/L2 패널티.
고정 표현 z_t = F_phi(I_t)이 고유수용 데이터와 연결되어 간단한 정책을 학습하는 다운스트림 행동 복제 설정을 사용한다.
다수의 시뮬레이션 환경과 실제 작업에서 CLIP, 감독된 ImageNet 특징, MoCo-ImageNet 등 베이스라인과 R3M을 비교한다.
재사용을 용이하게 하기 위해 ResNet18/34/50 백본에 대한 사전 학습 모델과 코드를 제공한다.

실험 결과

연구 질문

RQ1다양한 인간 비디오에서 학습된 시각 표현이 보지 않은 작업/환경에서 데이터 효율적인 모방 학습을 가능하게 하는가?
RQ2R3M 목적 함수의 어떤 구성요소들(T시간적 다이나믹스, 언어 기반 정합, 희소성)이 다운스트림 성능에 가장 크게 기여하는가?
RQ3R3M 표현이 시뮬레이션에서 실제로 복잡한 환경의 로봇 조작으로 효과적으로 전달되는가?

주요 결과

R3M은 12개 작업에서 처음부터 학습하는 것보다 다운스트림 작업 성공을 20% 이상 향상시킨다.
R3M은 작업 및 설정 전반에서 CLIP 및 MoCo 베이스라인을 평균적으로 10% 이상 상회한다.
실제 로봇 실험에서 R3M은 약 20회의 시연만으로 학습을 가능하게 하며, 팬에 양상추를 넣기, 수건 접기 등의 작업에서 뚜렷한 성공을 거둔다.
변수 제거 분석은 비디오-언어 정합을 제거하면 성능이 심하게 저하되고, 희소성 규제가 여러 환경에서 도움이 되며, 자르기 증강이 소폭 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.