QUICK REVIEW

[論文レビュー] Unsupervised State Representation Learning in Atari

Ankesh Anand, Evan Racah|arXiv (Cornell University)|Jun 19, 2019

Reinforcement Learning in Robotics参考文献 78被引用数 27

ひとこと要約

本稿では、Atari 2600の観測データにおいて空間的および時間的特徴の間の相互情報量を最大化する自己教師付き表現学習手法であるSpatiotemporal DeepInfomax (ST-DIM) を提案する。本手法は、以前の対照的および生成的手法よりも、特に小さな物体や低エントロピー特徴を捉える能力に優れ、ALEのソースコード解析から抽出した真の状態変数を備えた新しいベンチマークでも優れた性能を示した。

ABSTRACT

State representation learning, or the ability to capture latent generative factors of an environment, is crucial for building intelligent agents that can perform a wide variety of tasks. Learning such representations without supervision from rewards is a challenging open problem. We introduce a method that learns state representations by maximizing mutual information across spatially and temporally distinct features of a neural encoder of the observations. We also introduce a new benchmark based on Atari 2600 games where we evaluate representations based on how well they capture the ground truth state variables. We believe this new framework for evaluating representation learning models will be crucial for future representation learning research. Finally, we compare our technique with other state-of-the-art generative and contrastive representation learning methods. The code associated with this work is available at https://github.com/mila-iqia/atari-representation-learning

研究の動機と目的

強化学習環境において報酬の監視なしに意味的で分離可能な状態表現を学習する自己教師付き手法の開発。
従来の手法がピクセルレベルの再構成に注目するか、小さな物体や低エントロピー状態要因を捉えることができないという限界を克服すること。
Atari 2600ゲームのソースコード解析により抽出した真の状態変数を用いた、状態表現学習のための新しいベンチマークの提案。
さまざまな生成要因（物体の位置、スコア、敵の位置など）を捉える能力について、異なる表現学習手法の性能を評価すること。
空間的および時間的次元にわたる相互情報量を最大化することで、より頑健で意味的意味を持つ表現が得られることを示すこと。

提案手法

本手法は、Atariの観測データから特徴を抽出するための畳み込みニューラルネットワークエンコーダを用い、複数の空間的・時間的スケールで表現を計算する。
現在のフレームのグローバル表現と、将来のフレームからの局所的なパッチ表現の間の相互情報量を、InfoNCE損失に基づく対照的目的関数を用いて最大化する。
本手法は2つの目的を統合する：空間的パッチ間の局所的－局所的相互情報量と、フレーム全体とパッチ間のグローバル－局所的相互情報量。
同一の観測から得られる空間的・時間的特徴（ポジティブペア）が表現空間で互いに近づくように、エンドツーエンドで訓練される対照的学習目的関数を用いる。
主な革新点は、複数のネガティブサンプルを用いることで、対照的目的関数における相互情報量推定の安定性と正確性を向上させることにある。
線形プローブ評価により、学習済み表現から真の状態変数を予測する線形分類器を訓練することで、本手法を評価する。

実験結果

リサーチクエスチョン

RQ1空間的および時間的次元にわたる相互情報量を最大化することは、従来の対照的または生成的手法よりも、より優れた分離可能な状態表現を生み出すのか？
RQ2さまざまな表現学習手法は、Atariゲームにおける小さな低コントラスト物体（鍵や敵など）をどれほどよく捉えられるか？
RQ3高エントロピーで簡単に予測可能な特徴（例：時計）が学習目的を支配する場合、対照的手法はどの程度失敗するのか？
RQ4真の状態変数を備えた本手法のベンチマークは、表現学習モデルの評価をより信頼性があり解釈可能なものにできるか？
RQ5対照的手法（高エントロピー特徴を好む）と生成モデル（大規模で低エントロピー物体を好む）の間には、表現品質にどのような質的差が生じるのか？

主な発見

ST-DIMは、Atariベンチマーク全体のすべての状態変数において、最も高い平均F1スコアを達成し、対照的ベースラインおよびVAEやピクセル予測のような生成モデルを上回った。
ST-DIMは、鍵や敵のような小さな物体を捉える能力において顕著に優れており、『モンテズマの復讐』のようなゲームでは、他の対照的手法に比べてF1スコアが20〜30%も高い結果を示した。
ボクシングでは、ST-DIMは時計変数でF1スコア0.92、プレイヤースコアで0.88を達成したが、CPCやGlobal-T-DIMは時計の性能は高くても、プレイヤーや敵の位置を効果的に捉えられなかった。
アブレーションスタディの結果、空間的対照的コンポonent（Global-T-DIM）を除去すると、すべての状態変数で性能が低下し、目的関数における空間的インダクティブバイアスの重要性が確認された。
対照的手法（例：ST-DIM）は、容易に利用可能な特徴（例：ボクシングの時計）に対してより頑健である一方、CPCやGlobal-T-DIMはこのような特徴に飽和し、より複雑で低エントロピーな状態要因では性能を発揮できない。
生成モデル（例：PIXEL-PRED）は高エントロピー特徴（例：時計やスコア）では性能が低く、大規模で低エントロピーな特徴（例：プレイヤーと敵の位置）では優れた性能を発揮するが、これは対照的手法とは補完的な強みを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。