[논문 리뷰] Offline Visual Representation Learning for Embodied Navigation
OVRL은 대형 실내 이미지를 대상으로 자가감독 학습으로 오프라인에서 시각 표현을 사전 학습한 뒤, ImageNav 및 ObjectNav를 위해 온라인으로 시각-운동 특성을 미세 조정하여 최첨단 결과를 달성합니다.
How should we learn visual representations for embodied agents that must see and move? The status quo is tabula rasa in vivo, i.e. learning visual representations from scratch while also learning to move, potentially augmented with auxiliary tasks (e.g. predicting the action taken between two successive observations). In this paper, we show that an alternative 2-stage strategy is far more effective: (1) offline pretraining of visual representations with self-supervised learning (SSL) using large-scale pre-rendered images of indoor environments (Omnidata), and (2) online finetuning of visuomotor representations on specific tasks with image augmentations under long learning schedules. We call this method Offline Visual Representation Learning (OVRL). We conduct large-scale experiments - on 3 different 3D datasets (Gibson, HM3D, MP3D), 2 tasks (ImageNav, ObjectNav), and 2 policy learning algorithms (RL, IL) - and find that the OVRL representations lead to significant across-the-board improvements in state of art, on ImageNav from 29.2% to 54.2% (+25% absolute, 86% relative) and on ObjectNav from 18.1% to 23.2% (+5.1% absolute, 28% relative). Importantly, both results were achieved by the same visual encoder generalizing to datasets that were not seen during pretraining. While the benefits of pretraining sometimes diminish (or entirely disappear) with long finetuning schedules, we find that OVRL's performance gains continue to increase (not decrease) as the agent is trained for 2 billion frames of experience.
연구 동기 및 목표
- 임베디드 내비게이션에서 tabula rasa 학습을 넘어 더 나은 시각 표현의 필요성을 동기부여합니다.
- 오프라인 SSL 사전학습과 온라인 미세조정을 결합한 두 단계 전략을 시도합니다.
- ImageNav와 ObjectNav 전반에 걸친 사전학습 표현의 교차 데이터셋 일반화 및 확장성을 입증합니다.
제안 방법
- Omnidata에서 대규모 사이드 이미지 데이터셋에 대해 DINO(자기감독 학습)를 사용하여 시각 인코더를 오프라인으로 사전학습합니다.
- 안정적인 SSL 및 투사 헤드 학습을 위해 GroupNorm과 축소된 baseplanes를 갖는 수정된 ResNet50 백본을 사용합니다.
- 이미지 증강과 작업별 구조(ImageNav의 경우 DD-PPO; ObjectNav의 경우 imitation learning 기반)로 ImageNav 및 ObjectNav에서 다운스트림 미세조정을 수행합니다.
- 미세조정 중 색상 변이, 평행이동 등의 데이터 증강을 탐구하여 일반화 및 시간적 일관성을 향상시킵니다.
- encoder 일반화를 입증하기 위해 Gibson HM3D MP3D 데이터셋과 여러 카메라(1 RGB, 4 RGB, RGBD)에서 평가합니다.
실험 결과
연구 질문
- RQ1대규모 IID 이미지 말뭉치에서의 오프라인 SSL 사전학습이 보지 못한 환경과 데이터셋에 일반화되는 시각운동 표현을 만들어내나요?
- RQ2이미지 증강과 미세조정 전략이 다운스트림 체현 내비게이션 성능에 유의미하게 영향을 미치나요?
- RQ3다른 SSL 알고리즘과 모델 크기가 사전에 학습된 인코더로 사용할 때 ImageNav 및 ObjectNav 성능에 어떤 영향을 미치나요?
- RQ4수행 스케줄이 수십억 프레임으로 확장될 때 사전학습 표현의 한계는 무엇인가요?
- RQ5다양한 실내 공간 데이터(OSD)에서 사전학습이 전통적 지도 학습(ImageNet)보다 체현 태스크에 대해 뛰어난가요?
주요 결과
| Test | Method | Pretraining Dataset | Test Split | Camera(s) | SPL (↑) | SR (↑) |
|---|---|---|---|---|---|---|
| Scratch | - | A | 1 RGB | 9.3 ± 1.1% | 17.9 ± 2.0% | |
| ZER (ResNet9) [2] | - | A | 1 RGB | 21.6% | 29.2% | |
| ZER (ResNet50) ∗ | - | A | 1 RGB | 18.8 ± 2.3% | 27.7 ± 1.7% | |
| CRL [13] | MP3D | PointNav | 1 RGB | 3.2% | 5.8% | |
| CRL ∗ | Gibson | A | 1 RGB | 10.2 ± 1.6% | 20.4 ± 2.8% | |
| OVRL (Ours) | OSD | A | 1 RGB | 26.9 ± 0.9% | 41.3 ± 1.0% | |
| OVRL+ZER-Reward (Ours) | OSD | A | 1 RGB | 27.0 ± 2.5% | 54.2 ± 1.4% | |
| Mem-Aug RL [30] | ✗ | A | 4 RGB | 56.0% | 69.0% | |
| OVRL (Ours) | OSD | A | 4 RGB | 62.5 ± 1.3% | 79.8 ± 0.7% | |
| NRNS [19] | ✗ | B | 1 RGBD | 12.4% | 24.0% | |
| OVRL (Ours) | OSD | B | 1 RGB | 28.4 ± 1.7% | 45.5 ± 2.7% |
- OVRL은 ImageNav 단일 RGB 성능을 29.2%에서 54.2% SR로 개선합니다(+25% 포인트, 86% 상대 증가).
- OVRL은 ObjectNav RGBD 성능을 18.1%에서 23.2% SR로 개선합니다(+5.1% 포인트, 28% 상대 증가).
- 같은 사전학습 인코더가 보지 못한 데이터셋에 대해서도 일반화하며, 사전학습 중 MP3D를 보지 못해도 MP3D에서 IL 베이스라인보다 우수합니다.
- 사전학습 이점은 매우 긴 미세조정을 거치면서 지속되며 커져 가며(2B 프레임), 긴 학습에서의 사전학습 이점이 감소한다는 관점에 도전합니다.
- 미세조정 중 인코더를 미세조정할 때 이미지 증강은 성능을 크게 향상시키며, 인코더를 고정하면 증강의 효과가 감소합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.