[論文レビュー] Unsupervised Learning of Object Keypoints for Perception and Control
Transporter はビデオから教師なしでオブジェクトのキーポイントを学習し、それらをデータ効率の良い強化学習と探索に活用する。キーポイントのボトルネックを介してフレーム間で特徴を転送することにより。
The study of object representations in computer vision has primarily focused on developing representations that are useful for image classification, object detection, or semantic segmentation as downstream tasks. In this work we aim to learn object representations that are useful for control and reinforcement learning (RL). To this end, we introduce Transporter, a neural network architecture for discovering concise geometric object representations in terms of keypoints or image-space coordinates. Our method learns from raw video frames in a fully unsupervised manner, by transporting learnt image features between video frames using a keypoint bottleneck. The discovered keypoints track objects and object parts across long time-horizons more accurately than recent similar methods. Furthermore, consistent long-term tracking enables two notable results in control domains -- (1) using the keypoint co-ordinates and corresponding image features as inputs enables highly sample-efficient reinforcement learning; (2) learning to explore by controlling keypoint locations drastically reduces the search space, enabling deep exploration (leading to states unreachable through random action exploration) without any extrinsic rewards.
研究の動機と目的
- 分類や検出だけでなく、制御と強化学習に役立つオブジェクト中心表現の学習を促す。
- 長い時間スパンでオブジェクトを追跡する簡潔な幾何学的キーポイントを発見する、完全に教師なしのアーキテクチャ(Transporter)を提案する。
- キーポイントを状態入力として用いると RL のデータ効率が向上することを実証する。
- キーポイントを制御することが、タスクに依存しない探索と効率的な探索のためのスキル獲得を可能にすることを示す。
提案手法
- CNNベースの特徴抽出器 Phi と微分可能なキーポイントネットワーク(KeyNet)を用いて、フレームペアの空間的キーポイント座標 Psi(x) を予測する。
- キーポイントの周囲にガウス熱マップを計算し、ソースフレームの熱マップ位置をターゲット特徴で置換してソースフレームからターゲットフレームへ特徴を転送する。ソースのキーポイント位置をゼロにし、小さなリファインメントネットワークで転送を精製する。
- ターゲットフレームのピクセル単位のL2再構成を用いてエンドツーエンドで訓練し、時間を通じたキーポイントの幾何学的一貫性を強制する。
- ランダムポリシーで収集したデータでTransporterを事前訓練し、その後報酬から制御ポリシーを学習する間に転送器の重みを固定する(KeyQNを用いたデータ効率的RL)。
- 内在的なキーポイントベースのアクションを定義する(各キーポイントにつきK×4の方向移動)を用いてQ関数で探索に適したオプションを学習し、探索に最も制御可能なキーポイントを選択する。
実験結果
リサーチクエスチョン
- RQ1オブジェクトキーポイントの教師なし学習は、多様なRL環境で安定した長期追跡を実現できるか。
- RQ2キーポイント座標と局所的特徴を入力として用いることは、RGB観測と比較して強化学習のデータ効率を改善するか。
- RQ3キーポイントを制御することを学ぶことは、報酬なし・タスクに依存しない探索を強化する仕組みを提供できるか。
主な発見
- Transporter は Atari ALE および Manipulator ドメインで、長期の時間スパンでオブジェクトを堅牢に追跡する最先端のオブジェクトキーポイントを学習する。
- キーポイント座標と局所的特徴を入力として用いると、約10万回の相互作用でいくつかの Atari ゲームで強力なベースラインよりデータ効率の良い RL を実現する。
- キーポイント位置を制御する学習は効率的な探索を可能にし、アクション空間探索を大幅に削減する。キーポイント空間でのランダム探索は、ランダムな生のアクションでは到達できない行動にも到達できる。
- 最も制御可能なキーポイントはしばしばゲーム内のアバターに対応し、状態変化をまたいでも一貫して追跡可能である。
- キーポイントベースの探索は、外部報酬なしで Montezuma’s Revenge のような難しい探索タスクで顕著な性能向上を示す。
- この手法はタスク特有の報酬を必要とせず、タスク間で再利用可能な時系列で一貫したオブジェクト表現を生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。