[論文レビュー] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos
VPTは、限られたラベル付きデータで訓練された小さな逆動力学モデルを用いて、未ラベルのオンライン動画にラベルを付けることにより、連続的意思決定のための一般的な行動の事前知識を訓練します。これにより、Minecraft でウェブ規模の未ラベル動画データのみを使用してゼロショットおよびファインチューニングの性能を実現します。事前学習とファインチューニング(BCまたはRL)を組み合わせることで、ネイティブの人間インターフェースを用いた複雑なタスク、例えばダイヤモンドツールの作成といった人間レベル以上の性能を達成できることを示しています。
Pretraining on noisy, internet-scale datasets has been heavily studied as a technique for training models with broad, general capabilities for text, images, and other modalities. However, for many sequential decision domains such as robotics, video games, and computer use, publicly available data does not contain the labels required to train behavioral priors in the same way. We extend the internet-scale pretraining paradigm to sequential decision domains through semi-supervised imitation learning wherein agents learn to act by watching online unlabeled videos. Specifically, we show that with a small amount of labeled data we can train an inverse dynamics model accurate enough to label a huge unlabeled source of online data -- here, online videos of people playing Minecraft -- from which we can then train a general behavioral prior. Despite using the native human interface (mouse and keyboard at 20Hz), we show that this behavioral prior has nontrivial zero-shot capabilities and that it can be fine-tuned, with both imitation learning and reinforcement learning, to hard-exploration tasks that are impossible to learn from scratch via reinforcement learning. For many tasks our models exhibit human-level performance, and we are the first to report computer agents that can craft diamond tools, which can take proficient humans upwards of 20 minutes (24,000 environment actions) of gameplay to accomplish.
研究の動機と目的
- 未ラベル動画データを用いて、インターネット規模の事前学習を連続的意思決定領域に拡張する。
- 逆動力学モデルを訓練するための少量のラベル付きのデータが、大量の未ラベル動画データを行動模倣学習用にラベリングすることを可能にすることを示す。
- 得られたファウンデーションモデルが非自明なゼロショット能力を示し、模倣学習または強化学習でファインチューニングして困難な探索タスクを解決できることを示す。
提案手法
- 観測の軌道から行動を予測するよう、少量のラベル付きの contractor データセットで逆動力学モデル(IDM)を訓練する。
- オンライン動画をフィルタリングして、ラベルなしデータのクリーンな survival-mode Minecraft データセット(約70k時間)を作成する。
- IDMを介して未ラベルデータに擬似ラベルを生成し、これらのラベルでファウンデーション行動模倣モデルを訓練する。
- ファウンデーションモデルを行動模倣学習または強化学習でファインチューニングして、より高度なスキルを達成する。
- データセットやスケールを横断したゼロショット性能とファインチューニングの利得を比較し、IDMラベリングと直接BC訓練のデータ効率を分析する。
実験結果
リサーチクエスチョン
- RQ1未ラベルのオンライン動画を利用して、半教師付き模倣学習を通じて連続的意思決定領域の一般的な行動の事前知識を学べるか?
- RQ2ウェブ規模の未ラベル動画データへスケールさせた場合、逆動力学ラベリングは直接の行動模倣学習と比べてデータ効率がどれくらいか?
- RQ3未ラベル動画で訓練された VPT ファウンデーションモデルは Minecraft でどの程度ゼロショットの能力を示し、BCまたはRLによるファインチューニングでどれだけ改善するか?
- RQ4ネイティブの人間インターフェースを用いた VPT ファウンデーションモデルからの RL ファインチューニングで、ダイヤモンドツールの作成のようなタスクはどの程度実現可能になるか?
主な発見
- ラベル付きデータがわずか1962時間の IDM 訓練で、保持された contractor データセットにおいてキースペースの正確さ 90.6%、マウス動作の R^2=0.97 を達成。
- 約70k時間の web_clean 未ラベルデータを IDM でラベル付けすることで、非自明なゼロショット挙動を示すファウンデーション BC モデルの訓練を可能にし、さらに BC または RL でファインチューニングできる。
- 初期ゲームのターゲットデータセットに対する BC ファインチューニングは、クラフトや道具作成の能力を大幅に向上させ、contractor_house データを使用すると大きな改善が見られる。
- VPT ファウンデーションモデルからの RL ファインチューニングにより、ダイヤモンドのつるはしを得ることを含む難しい連続動作を、一定の成功率で完遂できる。
- 3段階の訓練(事前学習、BC ファインチューニング、RL ファインチューニング)は、鉄製ツールとダイヤモンドツールで高い信頼性を達成し、特定のタスクでは人間レベルの性能に近づく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。