Skip to main content
QUICK REVIEW

[論文レビュー] Relational Deep Reinforcement Learning

Vinícius Zambaldi, David Raposo|arXiv (Cornell University)|Jun 5, 2018
Reinforcement Learning in Robotics参考文献 20被引用数 159
ひとこと要約

本論文は深層強化学習に対して自己注意機構を介した関係性誘導バイアスを導入し、非局所的なエンティティ間の関係推論を可能にすることで、サンプル効率、一般化、Box-WorldおよびStarCraft IIのミニゲームでの性能を改善します。

ABSTRACT

We introduce an approach for deep reinforcement learning (RL) that improves upon the efficiency, generalization capacity, and interpretability of conventional approaches through structured perception and relational reasoning. It uses self-attention to iteratively reason about the relations between entities in a scene and to guide a model-free policy. Our results show that in a novel navigation and planning task called Box-World, our agent finds interpretable solutions that improve upon baselines in terms of sample complexity, ability to generalize to more complex scenes than experienced during training, and overall performance. In the StarCraft II Learning Environment, our agent achieves state-of-the-art performance on six mini-games -- surpassing human grandmaster performance on four. By considering architectural inductive biases, our work opens new directions for overcoming important, but stubborn, challenges in deep RL.

研究の動機と目的

  • 一般化とサンプル効率を向上させるために、関係表現を組み込んだ深層強化学習の改善を動機づける。
  • 非局所的で反復的な関係推論をシーン内のエンティティ間で可能にする建築的誘導バイアスを提案する。
  • 関係推論が解釈可能で転移可能な表現を生み出すことを示す。
  • StarCraft II のミニゲームで最先端の性能を、関係的に挑戦的な Box-World タスクで強力な性能を示す。

提案手法

  • 学習を導くために、状態・行動・ポリシーを関係言語で表現する。
  • エンティティ間のペアワイズおよび高次の相互作用を計算するために、非局所的で共有機能のアテンションブロック(マルチヘッド・ドット積アテンション)を用いる。
  • ピクセル入力から座標をCNN特徴量に付加して抽出したエンティティを、アテンション処理のエンティティとして空間セルを扱う。
  • ポリシーと値のヘッドの前に、残差接続付きでアテンションブロックを積み重ね、最大プーリングで集約する。
  • Box-World には分散アーキテクチャ(100 アクター、1 ラーナー)を用いたアクター・クリティック方式を適用。 temporal dependencies に対応するため StarCraft II には ConvLSTM を用いてアーキテクチャを適応。
  • 関係なしのコントロールネットワーク(残差畳み込みブロック)とのベースライン比較を提供し、関係性の利点を分離する。

実験結果

リサーチクエスチョン

  • RQ1自己注意によって学習された関係表現は、RLタスクで見たことのない関係配置への一般化を向上させるか?
  • RQ2反復的で非局所的な関係計算は、局所畳み込みを超えた高次の関係推論を可能にするか?
  • RQ3関係的誘導バイアスは、StarCraft II のミニゲームのような複雑な環境でサンプル効率と性能にどのように影響するか?
  • RQ4学習された関係表現はどの程度解釈可能で、タスク間で転移可能か?

主な発見

  • 関係モジュールは Box-World のバリアントでほぼ最適な性能を実現し、特に妨害者の複雑さが増すにつれて畳み込みベースラインを上回った。
  • Box-World では、関係推論を備えたエージェントが長い解決経路や見たことのない鍵-鍵配置へ高い成功率で一般化した(長い経路のゼロショット転送で例として >88%)。
  • StarCraft II のミニゲームでは、関係エージェントが6つのミニゲームで最先端スコアを達成し、4つで人間のグランドマスターを上回り、コントロールエージェントを上回った。
  • アテンションの可視化は、鍵が解錠可能なロックに注意を向けるなど、解釈可能な関係的意味論を示した。
  • 関係エージェントは長いシーケンスや新規の鍵-ロック組み合わせでゼロショット転送能力を示し、より強い抽象的な関係理解を示唆した。
  • 関係バイアスは一部のSC2設定で一般化の改善に寄与したが、結果にはばらつきとモデルサイズへの依存が見られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。