QUICK REVIEW

[論文レビュー] InfoBot: Transfer and Exploration via the Information Bottleneck

Anirudh Goyal, Riashat Islam|arXiv (Cornell University)|Jan 30, 2019

Reinforcement Learning in Robotics参考文献 43被引用数 46

ひとこと要約

InfoBotは情報ボトルネックを用いてゴール条件付きポリシーを正則化し、意思決定状態を発見する。これにより新しいタスクへの転移が向上し、標準的な探索手法を上回る転移可能な探索ボーナスを実現する。

ABSTRACT

A central challenge in reinforcement learning is discovering effective policies for tasks where rewards are sparsely distributed. We postulate that in the absence of useful reward signals, an effective exploration strategy should seek out {\it decision states}. These states lie at critical junctions in the state space from where the agent can transition to new, potentially unexplored regions. We propose to learn about decision states from prior experience. By training a goal-conditioned policy with an information bottleneck, we can identify decision states by examining where the model actually leverages the goal state. We find that this simple mechanism effectively identifies decision states, even in partially observed settings. In effect, the model learns the sensory cues that correlate with potential subgoals. In new environments, this model can then identify novel subgoals for further exploration, guiding the agent through a sequence of potential decision states and through new regions of the state space.

研究の動機と目的

マルチ-goal RLにおいて個別のゴールへの依存を減らすことでタスク構造の学習を促進する。
ゴール依存の意思決定が必要とされる意思決定状態を特定する。
学習した意思決定状態を活用して新しい環境で転移対応の探索ボーナスを提供する。
多様で報酬が希薄なタスクに対して汎化と効率的な探索を促進する。

提案手法

情報ボトルネック正則化器を備えたゴール条件付きポリシー：I(A;G|S)によるゴール依存性を抑制しつつ、期待報酬を最大化。
エンコーダ p_enc(Z|S,G) とデコーダ p_dec(A|S,Z) を用いたポリシーファクタリゼーションで πθ(A|S,G) を近似する。
全ての周辺和の計算が困難になるのを避けるため q(Z|S) を用いた変分界を使用し、KL[p_enc(Z|S,G)||q(Z|S)] を含む扱いやすい目的関数を得る。
修正報酬 r̃t = rt + β KL[p_enc(Z|st,gt)||q(Z|st)] を用いたオンポリシー方策勾配更新（REINFORCE）。
訓練タスクで学習後、エンコーダを凍結し、testタスクで新しいポリシーを学習する際に KL[p_enc(Z|S,G)||q(Z|S)] を探索ボーナスとして用い、過探索を抑制するカウントベース項で調整する。
任意：訓練タスクからのエンコーダを適用して未見だが関連するタスクで探索を誘導することで転移を示す。

実験結果

リサーチクエスチョン

RQ1情報ボトルネックを用いたゴール条件付きポリシーは、関連する未見タスクへのポリシー転移を改善できるか？
RQ2情報ボトルネックで学習した意思決定状態は、新しい環境で効果的なタスク調整探索ボーナスとして機能するか？
RQ3部分観測下でのマルチゴールRLにおいてゴール情報の正則化は汎化を促進するか？
RQ4InfoBot の転移可能な探索は、カウントベース、VIME、好奇心ベースの探索法とどう比較されるか？

主な発見

方法	MultiRoomN3S4	MultiRoomN5S4
Goal-conditioned A2C	0%	0%
TRPO + VIME	54%	0%
Count-based exploration	95%	0%
Curiosity-based exploration	95%	54%
InfoBot (decision state exploration bonus)	90%	85%

ゴールボトルネック付きポリシーは MiniGrid タスクで標準のゴール条件付きベースラインより一般化性能が高い。
InfoBot は標準的な RL アプローチよりも大規模またはより複雑な環境（例：MultiRoom および FindObj タスク）への転移性能を向上させる。
意思決定状態を探索ボーナスとして用いると転移設定で高い成功を維持し、タスクの複雑さが増すにつれてカウントベース、VIME、好奇心主導法を上回る。
Goalベースの MiniPacMan では、6x6 で学習した後、11x11 の迷路で 64% の成功率を達成し、いくつかのベースラインを上回る。
タスクを横断して InfoBot コントローラは汎化する習慣を学習する一方で、逸脱（意思決定状態）は探索のタスク固有の適応を捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。