QUICK REVIEW

[論文レビュー] Teaching Inverse Reinforcement Learners via Features and Demonstrations

Luis Haug, Sebastian Tschiatschek|arXiv (Cornell University)|Oct 21, 2018

Reinforcement Learning in Robotics被引用数 39

ひとこと要約

この論文は、教師と学習者の特徴表現に不一致がある場合の逆強化学習（IRL）における性能低下を定量化するための「教えるリスク」という概念を導入する。TRGreedyと呼ばれる特徴教えるアルゴリズムを提案し、最も情報量の多い特徴を選択することで教えるリスクを最小化することで、不完全な世界観の知識を持つ学習者でも近似的に最適な方策を回復できるようにする。

ABSTRACT

Learning near-optimal behaviour from an expert's demonstrations typically relies on the assumption that the learner knows the features that the true reward function depends on. In this paper, we study the problem of learning from demonstrations in the setting where this is not the case, i.e., where there is a mismatch between the worldviews of the learner and the expert. We introduce a natural quantity, the teaching risk, which measures the potential suboptimality of policies that look optimal to the learner in this setting. We show that bounds on the teaching risk guarantee that the learner is able to find a near-optimal policy using standard algorithms based on inverse reinforcement learning. Based on these findings, we suggest a teaching scheme in which the expert can decrease the teaching risk by updating the learner's worldview, and thus ultimately enable her to find a near-optimal policy.

研究の動機と目的

教師の特徴空間と学習者の特徴空間が異なる場合に生じる逆強化学習（IRL）の課題に対処すること。
世界観の不一致によって生じる教師と学習者のパフォーマンスギャップを、新たな指標「教えるリスク」として形式化すること。
教師が最も関連性の高い特徴を選択して教えることで、学習者の世界観を改善するための教える戦略を開発すること。
学習者の内部学習アルゴリズムの完全な知識が不要な効率的なアルゴリズム（TRGreedy）を設計すること。
教えるリスクに基づいて特徴を教えることで、ランダム選択やパフォーマンスに基づく特徴選択よりも顕著に優れた方策パフォーマンスが得られることを実証的に示すこと。

提案手法

教えるリスクを、学習者の世界観と教師の世界観の下で最適な方策の間の最大パフォーマンスギャップの上限として定義する。
学習者の特徴空間と真の報酬関数を用いて、学習者の特徴行列の核を用いて教えるリスクを関数として定式化する。
教えるリスクの低減に基づいて特徴を選択するグリーディーなアルゴリズムであるTRGreedyを提案する。パフォーマンス予測ではなく、教えるリスクの低減に基づく。
学習者の特徴行列の核を用いることで、教えるリスクを効率的に計算し、学習者が使用する特定のIRLアルゴリズムに依存しないようにする。
標準的なIRLと特徴教えるを統合する：特徴を教えた後、学習者は示範を用いて報酬関数を推定し、方策を最適化する。
合成的な示範と変化する特徴集合を用いたグリッドワールド環境でアルゴリズムを評価し、ランダム選択やパフォーマンスに優れた特徴選択と比較する。

実験結果

リサーチクエスチョン

RQ1逆強化学習（IRL）において、教師と学習者の特徴表現に不一致がある場合に生じるパフォーマンス低下をどのように定量化できるか？
RQ2世界観の不一致に起因する劣悪な方策学習のリスクを、原理的かつ一貫した方法で測定するにはどうすればよいか？
RQ3教えるリスクを最小化するために、教師がどの特徴を教えるべきか？
RQ4教えるリスクを最小化する戦略は、期待されるパフォーマンス向上に基づく戦略やランダム選択に比べて優れているか？
RQ5学習者の内部学習メカニズムの不確実性に対して、提案された教えるアルゴリズムはどれほど頑健か？

主な発見

教えるリスクは、学習者の世界観と教師の世界観の下で最適な方策のパフォーマンスギャップに対するタイトで計算可能な上界を提供する。
教えるリスクが小さい場合、標準的なIRLアルゴリズムですでに世界観の不一致があっても近似的に最適な方策を回復できる。
TRGreedyはすべての実験でランダムな特徴選択を上回り、相対的な方策パフォーマンスが顕著に高い。
TRGreedyは、各特徴について学習者の方策更新をシミュレートするPerfGreedyと同等の性能を達成するが、学習者のアルゴリズムをシミュレートしないため、実行時間が著しく短い。
教えるリスクは、教える特徴が増えるごとに単調に減少し、TRGreedyはランダム選択よりも効果的にそれを低減する。
教えるリスクは、学習者の特徴行列の核にのみ依存するため、学習者の最適化手順の詳細に依存せず、学習者の内部学習メカニズムの不確実性に対しても頑健である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。