Skip to main content
QUICK REVIEW

[論文レビュー] Neural Predictive Belief Representations

Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar|arXiv (Cornell University)|Nov 15, 2018
Domain Adaptation and Few-Shot Learning参考文献 42被引用数 47
ひとこと要約

この論文は、部分観測環境で信念-state表現を学ぶための教師なしニューラル手法(1ステップのフレーム予測、CPC、および CPC|Action)を調査し、これらの表現が状態と不確実性をエンコードすること、そして多段階の、行動条件付きCPCが視覚的に複雑な設定で最良の結果をもたらすことを示す。

ABSTRACT

Unsupervised representation learning has succeeded with excellent results in many applications. It is an especially powerful tool to learn a good representation of environments with partial or noisy observations. In partially observable domains it is important for the representation to encode a belief state, a sufficient statistic of the observations seen so far. In this paper, we investigate whether it is possible to learn such a belief representation using modern neural architectures. Specifically, we focus on one-step frame prediction and two variants of contrastive predictive coding (CPC) as the objective functions to learn the representations. To evaluate these learned representations, we test how well they can predict various pieces of information about the underlying state of the environment, e.g., position of the agent in a 3D maze. We show that all three methods are able to learn belief representations of the environment, they encode not only the state information, but also its uncertainty, a crucial aspect of belief states. We also find that for CPC multi-step predictions and action-conditioning are critical for accurate belief representations in visually complex environments. The ability of neural representations to capture the belief information has the potential to spur new advances for learning and planning in partially observable domains, where leveraging uncertainty is essential for optimal decision making.

研究の動機と目的

  • 部分観測環境において、過去の観測と行動を要約する信念状態表現の学習を動機づける。
  • 教師なし手法が観測から真の状態と不確実性を回復できるかを評価する。
  • DeepMind Labタスクで、1ステップのフレーム予測、CPC、CPC|Actionを比較する。
  • 変化する視覚的複雑さの下で、学習された表現がエージェント位置、軌道、物体位置をどれだけうまく符号化するかを評価する。
  • 予測の時間的長さ(予測ステップ数)と行動条件付けが、複雑な視覚設定における表現の質にどう影響するかを検討する。

提案手法

  • 3つの表現学習目的を用いる:1ステップのフレーム予測(FP)、対照的予測符号化(CPC)、および CPC|Action(アクション条件付き CPC)。
  • 過去の観測と行動から信念状態 b_t を生成するGRUベースの履歴エンコーダを用いる。
  • CPC/CPC|Actionについては、バッチから正例・負例を取り出してCPC分類器により b_t から未来の観測 o_{t+k} を予測する。
  • FPの場合、転置畳み込みデコーダを用いて b_t から次の観測 o_{t+1} を予測する。
  • 信念表現を評価するため、表現を通さずに真の状態情報を回復する補助予測器を学習する(例:エージェントの位置・向き、過去の軌跡、物体位置など)。
  • アーキテクチャは、観測を z_t に埋め込むCNN、信念GRU、未来の行動を処理するアクションGRU(CPC|Action 用)、および地上真実量を予測するMLPを含む。
  • アルゴリズム1は CPC|Action の学習を説明する:サブ軌道をサンプルし、信念を計算し、未来の行動を展開し、正の未来観測と負のサンプルを用いて CPC 損失を算出し、損失を平均化して更新する。)

実験結果

リサーチクエスチョン

  • RQ1教師なし手法は、部分観測環境において真の状態情報と不確実性を符号化する信念状態表現を学習できるか?
  • RQ2視覚的に豊かなドメインで、予測の長さ(1ステップ対30ステップ)と行動条件付けが学習された信念表現の質にどう影響するか?
  • RQ3学習された表現はエージェントの位置、過去の軌跡、物体位置を捉え、どの程度不確実性に対応できるか?

主な発見

EnvAlgorithm(x,y,θ)Past (x,y,θ)Objects (x,y)
fixedFP0.118±0.0150.121±0.0070.043±0.006
fixedCPC 10.579±0.0670.132±0.0100.049±0.005
fixedCPC 300.562±0.2040.118±0.0100.045±0.004
fixedCPC|Action 10.689±0.0570.137±0.0060.049±0.004
fixedCPC|Action 300.240±0.0300.100±0.0070.040±0.003
roomFP0.517±0.1230.285±0.0170.484±0.005
roomCPC 12.010±0.1420.311±0.0170.498±0.008
roomCPC 300.482±0.1570.257±0.0220.481±0.005
roomCPC|Action 12.274±0.1170.308±0.0180.484±0.005
roomCPC|Action 300.689±0.0660.276±0.0290.484±0.008
mazeFP0.178±0.2070.233±0.0290.322±0.008
mazeCPC 10.622±0.1580.278±0.0550.330±0.009
mazeCPC 300.244±0.0580.213±0.0310.325±0.015
mazeCPC|Action 10.638±0.0940.264±0.0280.323±0.010
mazeCPC|Action 300.182±0.0340.206±0.0290.323±0.010
terrainFP1.831±0.1620.405±0.0770.181±0.084
terrainCPC 13.393±0.2520.417±0.0740.307±0.174
terrainCPC 302.280±0.8530.340±0.1040.131±0.185
terrainCPC|Action 13.348±0.4820.414±0.0420.312±0.049
terrainCPC|Action 301.589±0.3580.344±0.0650.139±0.136
  • 3 つの手法(FP、1ステップおよび30ステップ予測を含む CPC、そして CPC|Action)は、エージェントの位置と向き、および過去の軌跡を符号化する信念表現を学習できる。
  • 表現は状態や物体に関する不確実性も符号化し、それはエージェントが観測と行動から情報を蓄積するにつれて低下する。
  • 視覚的に単純な環境ではFPが位置・向きを最もよく符号化することが多いが、視覚的に複雑な地形では、マルチステップの CPC(特に CPC|Action 30)が最も良く、FPより計算効率が高い。
  • CPC ベースの手法は FP より未来の観測の分布をよりよく捉え、CPC|Action は未来の行動で条件付けすることでさらに改善を提供する。
  • 物体位置情報は、物体が未来の観測を大きく変化させる場合(例:テレポート相互作用)により信頼性高く捉えられる。一方、そうでなければ物体は符号化が難しく、マップ固有の手掛かりやエピソード記憶に依存していることを示す。
  • 30ステップ先まで予測し、行動を取り入れる CPC|Action は、地形のような環境で信念の質を大幅に向上させ、単一ステップ予測手法と比較して優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。