QUICK REVIEW

[論文レビュー] Interactive Learning from Policy-Dependent Human Feedback

James MacGlashan, Mark K. Ho|arXiv (Cornell University)|Jan 21, 2017

Reinforcement Learning in Robotics参考文献 24被引用数 108

ひとこと要約

本論文は、人間のフィードバックが学習者の現在の方針に依存することを示し、方針依存フィードバックからの学習で収束するアクター-クリティック型アルゴリズムCOACHを導入する。これはシミュレーションと TurtleBot ロボットで実証された。

ABSTRACT

This paper investigates the problem of interactively learning behaviors communicated by a human teacher using positive and negative feedback. Much previous work on this problem has made the assumption that people provide feedback for decisions that is dependent on the behavior they are teaching and is independent from the learner's current policy. We present empirical results that show this assumption to be false -- whether human trainers give a positive or negative feedback for a decision is influenced by the learner's current policy. Based on this insight, we introduce {\em Convergent Actor-Critic by Humans} (COACH), an algorithm for learning from policy-dependent feedback that converges to a local optimum. Finally, we demonstrate that COACH can successfully learn multiple behaviors on a physical robot.

研究の動機と目的

人間が提供するフィードバックが学習者の現在の方針（policy-dependent feedback）とともに変化し、単なる行動の質だけではないことを実証する。
方針依存フィードバックから学習し局所最適解へ収束するアルゴリズム（COACH）を開発・形式化する。
COACHをシミュレーション領域と実機ロボット実験の両方で検証し、タスクを跨ぐスケーラビリティとロバスト性を示す。」],
method:[

提案手法

人間のフィードバックのモデルとして advantage function Aπ(s,a)=Qπ(s,a)−Vπ(s) を導入する。
適切に Qπ または Aπ に等しくなるフィードバックの場合に収束を生む更新則 Δθt∝∇θπ(st,at) ft / π(st,at) を導出する。
可変なフィードバックの大きさ、タイムラグ、疎なフィードバックに対処するための報酬集約と適格性迹を備えたリアルタイム COACH を提示する。
異なる減衰率を持つ複数の適格性トレースを用いて、トレース（λ）を介して過去の関連する行動へフィードバックを適用する。
さまざまなフィードバック戦略に対する堅牢性を評価するため、統制されたドメインで COACH を Q-learning および TAMER と比較する。
微分的および減衰的フィードバックを用いて、TurtleBot 上で5つの学習済み動作を実現するリアルタイム COACH を実演する。

実験結果

リサーチクエスチョン

RQ1対話型学習設定において、人間のフィードバックは学習者の現在の方針に依存するか（方針依存フィードバック）？
RQ2方針依存フィードバックで訓練された場合に収束するようなアクター-クリティック枠組みを設計できるか（COACH）？
RQ3さまざまなフィードバック戦略の下で、既存の HCRL アプローチ（例：TAMER）に対して COACH はどのように性能を示すか？
RQ4高頻度の意思決定と知覚ノイズを伴う実機ロボット領域に対して COACH はスケーラブルか？
RQ5リアルタイムの方針依存フィードバックにおける実用的な考慮事項（遅延、スパース性、報酬の大きさ）は何か？

主な発見

人間のトレーナーは、行動の質だけでなく、学習者の方針に依存する符号と大きさのフィードバックを提供する。
方針依存フィードバックを用いることで、COACH は利得ベースのフィードバックモデルを活用して局所最適解へ収束する。
シミュレーションでは、改善ベースのフィードバック下で COACH が他の選択肢を上回り、TAMER は行動ベースのフィードバックで最も良い性能を示す一方、特定の戦略下では失敗することがある。
リアルタイム COACH は TurtleBot 上で2分以内に5つの異なる動作を獲得する学習を可能にし、微分的および減衰的フィードバックを用いる。
TAMER はいくつかの組成的訓練や lure シナリオの下で以前に学習した動作を忘れる可能性があるのに対し、COACH は方針依存フィードバックで安定した学習を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。