QUICK REVIEW

[論文レビュー] Observational Learning by Reinforcement Learning

Diana Borsa, Bilal Piot|arXiv (Cornell University)|Jun 20, 2017

Reinforcement Learning in Robotics参考文献 22被引用数 26

ひとこと要約

本稿では、教師の行動を観察することで方策を改善する観察学習—エージェントが他のエージェントの行動を観察することで学習を進める手法—が、教師の明示的モデリングなしに、ディープ強化学習（DeepRL）において自然に出現することを示している。A3Cに記憶機構を組み合わせることで、エージェントは疎な環境報酬に基づき、教師の模倣や情報の入手を学習する。部分的可視性の状況下でも、エキスパートが観察したエージェントと同等の性能を達成でき、カリキュラム学習により後に独立して動作可能になる。

ABSTRACT

Observational learning is a type of learning that occurs as a function of observing, retaining and possibly replicating or imitating the behaviour of another agent. It is a core mechanism appearing in various instances of social learning and has been found to be employed in several intelligent species, including humans. In this paper, we investigate to what extent the explicit modelling of other agents is necessary to achieve observational learning through machine learning. Especially, we argue that observational learning can emerge from pure Reinforcement Learning (RL), potentially coupled with memory. Through simple scenarios, we demonstrate that an RL agent can leverage the information provided by the observations of an other agent performing a task in a shared environment. The other agent is only observed through the effect of its actions on the environment and never explicitly modeled. Two key aspects are borrowed from observational learning: i) the observer behaviour needs to change as a result of viewing a 'teacher' (another agent) and ii) the observer needs to be motivated somehow to engage in making use of the other agent's behaviour. The later is naturally modeled by RL, by correlating the learning agent's reward with the teacher agent's behaviour.

研究の動機と目的

観察学習が他のエージェントの明示的モデリングなしにDeepRLエージェントで出現するかどうかを調査すること。
記憶を備えた純粋な強化学習が、共有環境における教師の行動を観察することで学習するエージェントにとって十分であるかどうかを検証すること。
エキスパートの軌道の監視なしに、強化学習の報酬信号のみで模倣や情報探索といった複雑な行動が促進されるかどうかを調査すること。
学習後、エージェントが教師に依存しなくなるようにするカリキュラム戦略を開発すること。
教師と学習者が目的が不一致または最適でない場合でも、そのような観察学習が頑健であるかどうかを評価すること。

提案手法

エージェント（学習者）は、視覚処理に畳み込みニューラルネットワーク、記憶にLSTMを用いたA3Cアルゴリズムを採用し、共有環境の観察を処理する。
学習者は、タスクの完了に対してのみ報酬を受け取り、教師の模倣や相互作用に対しては報酬を受け取らない。
教師は、学習者の存在に気づかずに環境で動作するエキスパートエージェントであり、環境への影響を通じて行動のデモンストレーションを提供する。
観察は、教師の行動の空間的・時間的ダイナミクスを符号化する視覚ヘッドを経由して処理される。
カリキュラム学習戦略により、時間の経過に伴い教師の存在が徐々にマスクされ、エージェントが観察に依存するのを減らし、内部化された知識に依存するよう強制される。
エージェントの方策は、疎な環境報酬信号を用いたポリシー勾配最適化により、エンドツーエンドで訓練される。

実験結果

リサーチクエスチョン

RQ1教師の明示的モデリングやエキスパートの軌道へのアクセスなしに、DeepRLエージェントにおいて観察学習が出現するか？
RQ2視覚、記憶、強化学習の組み合わせが、観察から模倣や情報探索行動を生み出すのに十分か？
RQ3教師が存在しない状況でも、観察学習で学習したエージェントが新しい環境に一般化できるか？
RQ4部分的可視性の設定下で、エージェントのパフォーマンスはゴールの可視性や教師の存在にどのように依存するか？
RQ5カリキュラム戦略により、エージェントが教師への依存を成功裏に解消しつつ、タスクパフォーマンスを維持できるか？

主な発見

ゴールが可視な環境では、教師が存在する間、単独で完全可視性を持つエージェントと同等またはわずかに優れたパフォーマンスを示し、教師の行動から効果的に情報を抽出していることが示された。
ゴールが非可視の場合でも、盲目的な静止ポリシーに比べて顕著に性能が向上しており、教師の軌道を用いてゴール位置を推定する能力を学習していることが示された。
エージェントの最終方策は、明示的な報酬なしに、教師を常に探し、追従するという戦略を示しており、模倣と情報探索の両方を強固に学習していることが確認された。
教師の存在を徐々にマスクするカリキュラム学習を経て、9部屋の環境で教師が不在の状態でもタスクを正常に解決した。これは、教師の行動が成功裏に内部化されたことを示している。
訓練後、エージェントは訓練済みとは異なる新規の環境に一般化できており、観察された行動が環境固有ではなく、転送可能であることが示された。
教師と学習者が逆方向に移動するなど、目的が不一致であっても、エージェントは依然として教師の行動を効果的に活用できることが示され、目的不一致に対しても耐性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。