QUICK REVIEW

[論文レビュー] Global overview of Imitation Learning

Alexandre Attia, Sharone Dayan|arXiv (Cornell University)|Jan 19, 2018

Reinforcement Learning in Robotics参考文献 9被引用数 31

ひとこと要約

本稿は、逐次意思決定タスクにおける収束保証と性能を比較しながら、模倣学習アルゴリズムの包括的レビューを提供している。特に、DAggerは、能動的データ収集と分布シフトに対するロバスト性により、最も効果的な手法であると強調しており、OpenAI Gymを用いたシミュレーテッド半チーター環境において、反復回ごとのポリシー改善が顕著に向上していることを示している。

ABSTRACT

Imitation Learning is a sequential task where the learner tries to mimic an expert's action in order to achieve the best performance. Several algorithms have been proposed recently for this task. In this project, we aim at proposing a wide review of these algorithms, presenting their main features and comparing them on their performance and their regret bounds.

研究の動機と目的

主な模倣学習アルゴリズムをレビュー・比較し、理論的保証と実践的性能に特に注目する。
被動的教師あり学習が模倣学習において果たせない分布シフトの影響を回復できないという限界を分析する。
DAggerのような能動的学習アプローチが、ポリシーの一般化性とロバスト性を向上させる有効性を評価する。
実世界のベンチマーク（OpenAI Gymのhalf-cheetah）上でDAggerアルゴリズムを実証的に検証し、訓練のダイナミクスを評価する。
最近の模倣学習の進展、特にGANベースおよびメタラーニングフレームワークを検討し、少数のサンプルからの模倣への可能性を考察する。

提案手法

マルコフ決定過程（MDP）フレームワーク内で模倣学習を形式化し、状態空間S、行動空間A、遷移関数B、報酬関数R、初期状態分布Iの主要な要素を定義する。
教師あり学習を模倣学習に適用し、エキスパートの状態-行動ペアに基づいて分類器を学習する。これは、エキスパート行動がi.i.d.であると仮定し、二次的レグレットバウンドを用いて性能損失を上限付ける。
フォワードトレーニングを導入する。これは、各時刻で前回のポリシーからのトラジェクトリを用いて非定常ポリシーを訓練する反復的アルゴリズムであり、特定の条件下でサブリニアレグレットを達成する。
DAgger（データセットアグリゲーション）を能動的学習アルゴリズムとして提案する。これは、ロールアウト中に各時刻でエキスパートに問い合わせ、新しいデータを収集してポリシーを再訓練することで、分布シフトを低減する。
DAggerでは、コストセンシティブ分類を用い、状態、時刻、行動、およびエキスパートが提供するコスト・トゥ・ゴール推定値の集約データに基づいてポリシーを学習する。
TensorFlowを用いてニューラルネットワークポリシーを訓練し、OpenAI Gym環境でシミュレーションとポリシー性能の評価を複数反復にわたり実施する。

実験結果

リサーチクエスチョン

RQ1異なる模倣学習アルゴリズムは、レグレットバウンドと収束保証においてどのように比較されるか？
RQ2なぜ教師あり模倣学習は、エージェントがエキスパートの示した軌道から逸脱した場合に一般化に失敗するのか？
RQ3DAggerにおける能動的データ収集は、被動的教師あり学習と比較して、ポリシー性能をどの程度向上させるのか？
RQ4DAggerアルゴリズムは、訓練中に分布シフトをどのように低減させ、ポリシーのロバスト性を向上させるのか？
RQ5DAggerは、最小限のエキスパートのデモンストレーションで強力な性能を達成できるのか？また、ロールアウトの増加に伴ってどのようにスケーリングするのか？

主な発見

教師あり模倣学習は、$ J(\tilde{\tau}) \rightarrow J(\tau^*) + T^2\theta $ の二次的レグレットバウンドを示し、$ \theta $ は分類器の誤差率を表す。これは、逸脱時に一般化が著しく劣化することを示唆している。
フォワードトレーニングは、$ J(\tilde{\tau}) \rightarrow J(\tau^*) + O(uT\theta) $ の近似的線形レグレットバウンドを達成し、誤差からの回復を可能にすることで、教師あり学習より優れた性能を示している。
DAggerは、ロールアウト中にエキスパートに能動的に問い合わせることで、分布シフトを低減し、より良いポリシー一般化を実現する。これは、被動的手法を著しく上回る。
ハーフチーター環境では、DAggerアルゴリズムが30回未満の反復で収束する訓練損失と検証損失を達成し、ポリシー反復に伴い着地精度が顕著に向上した。
検証セット上で選択された最終ポリシーは、安定した改善性能を示しており、DAggerが現実世界の模倣学習タスクにおいて有効であることを確認した。
最近の進展として、GANベースおよびメタラーニングフレームワークは、少数のサンプルからの模倣に有望である。OpenAIの手法は、VRとニューラルネットワークの事前学習を用いて、1つのデモンストレーションからの模倣を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。