Skip to main content
QUICK REVIEW

[논문 리뷰] R3M: A Universal Visual Representation for Robot Manipulation

Suraj Nair, Aravind Rajeswaran|arXiv (Cornell University)|2022. 03. 23.
Multimodal Machine Learning Applications인용 수 82
한 줄 요약

R3M은 다양한 인간 비디오(Ego4D)에서 시간 대비 학습, 비디오-언어 정렬, 희소성을 활용하여 재사용 가능한 시각 표현을 사전 학습하고, 시뮬레이션 및 실제 작업 전반에서 데이터 효율적인 다운스트림 로봇 조작을 가능하게 한다. 12개 작업에서 CLIP, ImageNet, MoCo 베이스라인을 능가하고, 단 20회의 시연으로 실제 세계 학습을 가능하게 한다.

ABSTRACT

We study how visual representations pre-trained on diverse human video data can enable data-efficient learning of downstream robotic manipulation tasks. Concretely, we pre-train a visual representation using the Ego4D human video dataset using a combination of time-contrastive learning, video-language alignment, and an L1 penalty to encourage sparse and compact representations. The resulting representation, R3M, can be used as a frozen perception module for downstream policy learning. Across a suite of 12 simulated robot manipulation tasks, we find that R3M improves task success by over 20% compared to training from scratch and by over 10% compared to state-of-the-art visual representations like CLIP and MoCo. Furthermore, R3M enables a Franka Emika Panda arm to learn a range of manipulation tasks in a real, cluttered apartment given just 20 demonstrations. Code and pre-trained models are available at https://tinyurl.com/robotr3m.

연구 동기 및 목표

  • 환경과 작업 전반에 일반화되는 보편적이고 재사용 가능한 로봇용 비전 모델의 필요성을 제시한다.
  • 조작을 위한 단일 시각 인코더를 사전 학습하기 위해 다양한 인간 비디오 데이터를 활용한다.
  • 제한된 데이터로 다운스트림 정책 학습을 지원하는 간결하고 상호작용 인지형 표현을 만든다.

제안 방법

  • Ego4D에서 세 가지 손실을 사용하여 고정된 이미지 인코더 F_phi를 학습한다: 시간 대비 학습으로 시간 동적성을 포착하고, 비디오-언어 정렬로 의미적 관련성을 인코딩하며, 희소성을 촉진하기 위한 L1/L2 패널티.
  • 고정 표현 z_t = F_phi(I_t)이 고유수용 데이터와 연결되어 간단한 정책을 학습하는 다운스트림 행동 복제 설정을 사용한다.
  • 다수의 시뮬레이션 환경과 실제 작업에서 CLIP, 감독된 ImageNet 특징, MoCo-ImageNet 등 베이스라인과 R3M을 비교한다.
  • 재사용을 용이하게 하기 위해 ResNet18/34/50 백본에 대한 사전 학습 모델과 코드를 제공한다.

실험 결과

연구 질문

  • RQ1다양한 인간 비디오에서 학습된 시각 표현이 보지 않은 작업/환경에서 데이터 효율적인 모방 학습을 가능하게 하는가?
  • RQ2R3M 목적 함수의 어떤 구성요소들(T시간적 다이나믹스, 언어 기반 정합, 희소성)이 다운스트림 성능에 가장 크게 기여하는가?
  • RQ3R3M 표현이 시뮬레이션에서 실제로 복잡한 환경의 로봇 조작으로 효과적으로 전달되는가?

주요 결과

  • R3M은 12개 작업에서 처음부터 학습하는 것보다 다운스트림 작업 성공을 20% 이상 향상시킨다.
  • R3M은 작업 및 설정 전반에서 CLIP 및 MoCo 베이스라인을 평균적으로 10% 이상 상회한다.
  • 실제 로봇 실험에서 R3M은 약 20회의 시연만으로 학습을 가능하게 하며, 팬에 양상추를 넣기, 수건 접기 등의 작업에서 뚜렷한 성공을 거둔다.
  • 변수 제거 분석은 비디오-언어 정합을 제거하면 성능이 심하게 저하되고, 희소성 규제가 여러 환경에서 도움이 되며, 자르기 증강이 소폭 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.