QUICK REVIEW

[論文レビュー] Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives

Anirudh Goyal, Shagun Sodhani|arXiv (Cornell University)|Jun 25, 2019

Reinforcement Learning in Robotics参考文献 37被引用数 23

ひとこと要約

この論文では、情報理論的メカニズムを用いて、各状態ごとに最も関連性の高いプリミティブを選択することで、低レベルの行動プリミティブが自律的かつ競争的に行動する分散型強化学習フレームワークを提案する。各プリミティブの情報アクセスを制限し、競争を通じて特化を促進することで、中央集権的なメタコントローラーを必要とせず、階層的およびフラットな方策よりも優れた汎化性能と転移性能を達成する。

ABSTRACT

Reinforcement learning agents that operate in diverse and complex environments can benefit from the structured decomposition of their behavior. Often, this is addressed in the context of hierarchical reinforcement learning, where the aim is to decompose a policy into lower-level primitives or options, and a higher-level meta-policy that triggers the appropriate behaviors for a given situation. However, the meta-policy must still produce appropriate decisions in all states. In this work, we propose a policy design that decomposes into primitives, similarly to hierarchical reinforcement learning, but without a high-level meta-policy. Instead, each primitive can decide for themselves whether they wish to act in the current state. We use an information-theoretic mechanism for enabling this decentralized decision: each primitive chooses how much information it needs about the current state to make a decision and the primitive that requests the most information about the current state acts in the world. The primitives are regularized to use as little information as possible, which leads to natural competition and specialization. We experimentally demonstrate that this policy architecture improves over both flat and hierarchical policies in terms of generalization.

研究の動機と目的

中央集権的なメタポリシーが全状態空間を理解しなければならないことによるハイパーパラメータの一般化ボトルネックを解消すること。
単一の上位レベルコントローラーに依存しない柔軟でプラグアンドプレイなスキル転送を可能にすること。
情報理論的正則化を通じて、低レベルのプリミティブ間の自然な特化と競争を促進すること。
プリミティブ選択の分散化により、未確認または複雑な環境でも転移学習の性能を向上させること。

提案手法

各プリミティブ方策は、現在の状態に関する情報アクセスを制限するため、変分情報ボトルネック目的関数で訓練される。
プリミティブは、要求する状態情報量に基づいて競争し、情報要求量が多いほど選択される。
システムは微分可能でエンドツーエンドの訓練スキームを採用しており、プリミティブは関連する状態特徴を効率的に符号化するように学習する。
アーキテクチャは要因分解されている：プリミティブは独立に訓練され、推論時に情報に基づく競争によって動的に選択される。
この手法は、順序付き観測を処理し、意思決定用の状態表現を生成するGRUベースのエンコーダーに依存している。
最終的な方策は、最も情報量の多いプリミティブのみが行動する競合型アンサンブルであり、明示的なメタポリシーは存在しない。

実験結果

リサーチクエスチョン

RQ1情報制限付きプリミティブを用いた分散型方策アンサンブルは、中央集権的なメタポリシーを持つ階層的方策を上回る一般化性能を達成できるか？
RQ2プリミティブ間の情報理論的競争は、自然な特化と改善された転移学習をどのようにもたらすか？
RQ3プリミティブは再訓練なしに、どの程度再結合されたり新しい環境に転送されたりできるか？
RQ4上位レベルコントローラーを排除することで、未確認の環境における耐性と適応性が向上するか？

主な発見

提案手法は、4部屋グリッドワールドやアントメイズタスクを含む多様な環境において、フラットおよび階層的方策を上回る一般化性能を達成した。
モデルは優れた転送性能を達成し、プラグアンドプレイな方法でプリミティブを再結合することで、より大きなまたは以前に未確認の環境にも自然に一般化できた。
プリミティブは状態空間の異なる領域に自然に特化しており、具体的にはボックス、ゲート、球体などの特定の環境的特徴に対して選択的に活性化された。
中央集権的なメタコントローラーが存在しないため、プリミティブのシームレスな転送と再結合が可能となり、モularity（モジュール性）と適応性が向上した。
情報駆動型の競争メカニズムにより、明示的な教師信号なしに、効果的かつ動的にアクティブなプリミティブが選択された。
アントメイズ環境では、3〜10のゴール位置にわたる一般化が成功し、耐性とスケーラビリティが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。