[논문 리뷰] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos
VPT는 제한된 라벨 데이터로 학습된 작은 역동 역학 모델로 라벨이 없는 온라인 비디오에 라벨을 달아 순차적 의사결정을 위한 일반적 행동 선행 지식을 학습하고, 이를 통해 웹 규모의 라벨링되지 않은 비디오 데이터만으로도 마인크래프트에서 제로샷 및 파인튜닝 성능을 가능하게 한다. 또한 이 사전 학습과 파인튜닝(BC 또는 RL)이 네이티브 인간 인터페이스를 사용한 복잡한 작업, 예를 들어 다이아몬드 도구 제작에서 사람 수준의 또는 그 이상 성능을 달성할 수 있음을 보여준다.
Pretraining on noisy, internet-scale datasets has been heavily studied as a technique for training models with broad, general capabilities for text, images, and other modalities. However, for many sequential decision domains such as robotics, video games, and computer use, publicly available data does not contain the labels required to train behavioral priors in the same way. We extend the internet-scale pretraining paradigm to sequential decision domains through semi-supervised imitation learning wherein agents learn to act by watching online unlabeled videos. Specifically, we show that with a small amount of labeled data we can train an inverse dynamics model accurate enough to label a huge unlabeled source of online data -- here, online videos of people playing Minecraft -- from which we can then train a general behavioral prior. Despite using the native human interface (mouse and keyboard at 20Hz), we show that this behavioral prior has nontrivial zero-shot capabilities and that it can be fine-tuned, with both imitation learning and reinforcement learning, to hard-exploration tasks that are impossible to learn from scratch via reinforcement learning. For many tasks our models exhibit human-level performance, and we are the first to report computer agents that can craft diamond tools, which can take proficient humans upwards of 20 minutes (24,000 environment actions) of gameplay to accomplish.
연구 동기 및 목표
- 라벨이 없는 비디오 데이터를 사용하여 순차적 의사결정 영역으로 인터넷 규모의 사전 학습을 확장한다.
- 역동 모델을 학습시키기 위한 소량의 라벨 데이터가 대규모의 라벨이 없는 비디오 데이터를 행동 복제(Behavioral Cloning)용으로 라벨링하는 것을 가능하게 함을 입증한다.
- 결과로 얻은 기초 모델이 비자명한 제로샷 능력을 보이고 모방학습이나 강화학습으로 파인튜닝하여 어려운 탐험 작업을 해결할 수 있음을 보인다.
제안 방법
- 관측 경로로부터 행동을 예측하도록 소량의 라벨링된 데이터셋에서 역동 모델(IDM)을 학습한다.
- 라벨링되지 않은 데이터를 위해 약 70,000시간 규모의 깨끗한 서바이벌 모드 마인크래프트 데이터셋을 온라인 비디오에서 필터링하여 만든다.
- IDM을 통해 라벨링되지 않은 데이터에 의사 라벨을 생성하고 이 라벨로 기초 행동 복제 모델을 학습한다.
- 더 발전된 기술에 도달하기 위해 행동 복제 또는 강화학습으로 기초 모델을 파인튜닝한다.
- 데이터 세트 및 규모에 따른 제로샷 성능과 파인튜닝 이득을 비교하고 IDM 라벨링과 직접 BC 학습의 데이터 효율성을 분석한다.
실험 결과
연구 질문
- RQ1라벨링되지 않은 온라인 비디오를 활용하여 반지도 학습 기반의 모방학습을 통해 순차적 의사결정 영역에 대한 일반적 행동 선행 지식을 학습할 수 있는가?
- RQ2웹 규모의 라벨 없는 비디오 데이터를 확장 확장할 때 역동 라벨링이 직접적 행동 복제에 비해 데이터 효율성이 얼마나 되는가?
- RQ3라벨이 없는 비디오로 학습된 VPT 기초 모델이 마인크래프트에서 제로샷 능력을 어느 정도 보이며, BC 또는 RL 파인튜닝으로 얼마나 잘 향상되는가?
- RQ4다이아몬드 도구 제작과 같은 어떤 작업들이 VPT 기초 모델에서 RL 파인튜닝을 통해 네이티브 인간 인터페이스를 사용해 가능해지는가?
주요 결과
- 1962 시간의 라벨링 데이터로 학습된 IDM은 보류된(held-out) 컨트랙터 데이터셋에서 키프레스 정확도 90.6%와 마우스 움직임에 대해 R^2 0.97을 달성한다.
- IDM으로 라벨링된 약 70k 시간 규모의 web_clean 라벨 없는 데이터셋은 비자명한 제로샷 행동을 보이는 기초 BC 모델의 학습을 가능하게 하고, 추가로 BC나 RL로 파인튜닝 가능하다.
- 특정 초반 게임 데이터셋에 대한 BC 파인튜닝은 제작과 도구 제작 능력에서 실질적 개선을 가져오며, contractor_house 데이터를 사용할 때 큰 이득이 있다.
- VPT 기초 모델에서의 RL 파인튜닝은 다이아몬드 곡괭이를 얻는 것을 포함한 어려운 시퀀스의 완료를 가능하게 하며, 의미 있는 성공률을 보인다.
- 세 단계 학습(사전학습, BC 파인튜닝, RL 파인튜닝)은 철 도구와 다이아몬드에 대해 높은 신뢰성을 달성하고 특정 작업에서 인간 수준의 성능에 근접한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.