Skip to main content
QUICK REVIEW

[論文レビュー] The Unsurprising Effectiveness of Pre-Trained Vision Models for Control

Simone Parisi, Aravind Rajeswaran|arXiv (Cornell University)|Mar 7, 2022
Advanced Neural Network Applications被引用数 21
ひとこと要約

凍結済みの事前訓練済み視覚表現は、ドメイン外データで訓練され、制御ポリシーの学習においてground-truth特徴と競合する、あるいはそれを上回ることができる。特に自己教師あり学習と多層特徴融合を用いる場合。

ABSTRACT

Recent years have seen the emergence of pre-trained representations as a powerful abstraction for AI applications in computer vision, natural language, and speech. However, policy learning for control is still dominated by a tabula-rasa learning paradigm, with visuo-motor policies often trained from scratch using data from deployment environments. In this context, we revisit and study the role of pre-trained visual representations for control, and in particular representations trained on large-scale computer vision datasets. Through extensive empirical evaluation in diverse control domains (Habitat, DeepMind Control, Adroit, Franka Kitchen), we isolate and study the importance of different representation training methods, data augmentations, and feature hierarchies. Overall, we find that pre-trained visual representations can be competitive or even better than ground-truth state representations to train control policies. This is in spite of using only out-of-domain data from standard vision datasets, without any in-domain data from the deployment environments. Source code and more at https://sites.google.com/view/pvr-control.

研究の動機と目的

  • 凍結され、ドメイン外の前訓練済み視覚表現が制御ポリシーの知覚モジュールとして機能するかを評価する。
  • 表現訓練手法(監視あり vs 自己教師あり)が制御性能に与える影響を特徴づける。
  • 多様な制御領域におけるポリシー学習に対する特徴階層とデータ拡張の影響を調査する。
  • 複数の層からの特徴を組み合わせると、制御タスクの普遍的で頑健なPVRが得られるかを検討する。

提案手法

  • 凍結済みの前訓練視覚モデルを、4つのドメイン(Habitat、DeepMind Control、Adroit、Franka Kitchen)における制御ポリシーの知覚モジュールとして使用する。
  • PVRを状態表現として用い、模倣学習(ビヘイビアラル・クローン)を用いて制御ポリシーを訓練する。
  • ドメイン外データ(ImageNet、Places)で事前訓練された市販のPVRを、ground-truth特徴量およびスクラッチからのエンドツーエンド学習と比較する。
  • 自己監督型と教師あり事前訓練のいずれが制御性能に影響を及ぼすかを評価する。
  • データ拡張の役割(特にクロップとカラー)、および層ごとの表現(初期層 vs 後期層)が制御に与える影響を調査する。
  • クロップ拡張されたMoCoモデルの複数の層を組み合わせたフル階層PVRを提案・検証し、頑健な性能を達成する。

実験結果

リサーチクエスチョン

  • RQ1完全にドメイン外データで事前訓練された単一の視覚モデルは、複数の制御タスクで効果的な凍結知覚モジュールとして機能するか?
  • RQ2自己教師付き表現は、ポリシー学習のために凍結された場合、教師付き表現よりも良い制御特徴を提供するか?
  • RQ3どのデータ拡張と層階層(初期層 vs 後期層)が視覚-運動制御を最もサポートするか?
  • RQ4複数の層からの特徴を組み合わせると、普遍的なPVRが得られ、さまざまなドメインでground-truth状態特徴と同等かそれを上回るか?

主な発見

  • 完全にドメイン外データで訓練された凍結PVRは、ポリシー訓練のためのground-truth特徴と競合する、あるいはそれを上回る。
  • 自己教師あり学習(SSL)ベースの表現は、制御タスクで一般に教師あり表現より優れている。
  • SSL制御表現においては、カラー拡張よりもクロップ拡張が重要であり、カラー不変性は有利でない可能性がある。
  • 初期畳み込み層の特徴は微細な制御タスクに適し、後期層は意味的タスクに適する。完全階層の特徴は、いくつかのドメインでground-truth特徴を上回ることがある。
  • レイヤー3–5をクロップ拡張と組み合わせた完全階層PVRは、研究対象のすべてのドメインで強力で、時には最良の性能を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。