QUICK REVIEW

[論文レビュー] Reinforcement and Imitation Learning via Interactive No-Regret Learning

Stéphane Ross, J. Andrew Bagnell|arXiv (Cornell University)|Jun 23, 2014

Advanced Bandit Algorithms Research参考文献 23被引用数 118

ひとこと要約

本稿では、コスト・トゥ・ゴール情報をインタラクティブなポリシー学習に組み込むことで、模倣学習と強化学習を統合する、レギュレートなしオンライン学習フレームワークであるAggreVaTeを提案する。DAgger風の手法をコスト感受性学習で拡張し、レギュレート最小化によるより強い理論的保証とポリシー安定性を実現する。両方の分野に応用可能である。

ABSTRACT

Recent work has demonstrated that problems-- particularly imitation learning and structured prediction-- where a learner's predictions influence the input-distribution it is tested on can be naturally addressed by an interactive approach and analyzed using no-regret online learning. These approaches to imitation learning, however, neither require nor benefit from information about the cost of actions. We extend existing results in two directions: first, we develop an interactive imitation learning approach that leverages cost information; second, we extend the technique to address reinforcement learning. The results provide theoretical support to the commonly observed successes of online approximate policy iteration. Our approach suggests a broad new family of algorithms and provides a unifying view of existing techniques for imitation and reinforcement learning.

研究の動機と目的

高コストの状況（例：崖から落ちる）において、コスト・トゥ・ゴール情報を無視する既存の模倣学習手法の限界を是正し、劣化したポリシーを回避すること。
しばしばバッチ手法よりも優れた性能を示すが、形式的な収束保証を欠くオンライン近似ポリシー反復の経験的成功の理論的基盤を提供すること。
コスト感受性フィードバックを活用する一様なレギュレートなし学習フレームワークとして、模倣学習と強化学習の既存手法を統合すること。
強い理論的安定性と性能保証を持つ、NRPI（レギュレートなしポリシー反復）と呼ばれる新たな強化学習アルゴリズムを開発すること。
コスト・トゥ・ゴール推定値でさえも、粗く近似されたものであっても、インタラクティブな学習環境においてポリシーの一般化性と耐性を顕著に向上させられることを示すこと。

提案手法

コスト重み付きの訓練例 $(s, t, a, Q)$ を収集するインタラクティブな模倣学習アルゴリズム AggreVaTe を提案する。ここで $Q$ は、状態 $s$ で時刻 $t$ に行動 $a$ を取った後の専門家のコスト・トゥ・ゴールである。
専門家の行動に対するゼロ-ワン分類損失の最小化ではなく、収集されたデータセット上で期待コスト・トゥ・ゴールを最小化するようにポリシー $ ilde{ au}$ を学習する。
オンラインのレギュレートなし学習アルゴリズム（例：オンラインフランク＝ウォルフ）を用いて、ポリシーを反復的に改善し、累積的レギュレートが時間とともに非線形に増加することを保証する。
同じコスト感受性学習メカニズムを用いることで、安定性と性能保証を確保する、NRPI と呼ばれるレギュレートなしポリシー反復アルゴリズムを導入することで、フレームワークを強化学習に拡張する。
時間平均状態分布 $d_ au^t$ とコスト関数 $C(s,a) \in [0,1]$ を用いて、性能指標とレギュレートバウンドを定義する。
統計的レギュレートが誤差低減保証よりも強いという理論的バウンドを確立し、従来の手法よりもより強固な性能保証を提供することを示す。

実験結果

リサーチクエスチョン

RQ1コスト・トゥ・ゴール情報をインタラクティブな模倣学習に組み込むことで、単に専門家の行動を模倣する手法と比較して、ポリシーの性能と耐性が向上するか？
RQ2オンライン近似ポリシー反復手法は、理論的不安定性の懸念があるにもかかわらず、なぜ実際にはバッチ手法よりも優れた性能を示すことが多いのか？
RQ3一様なレギュレートなしオンライン学習フレームワークとして、模倣学習と強化学習を統合できるか？
RQ4コスト感受性のレギュレートなし学習を用いて、安定的かつ理論的に裏付けられた強化学習アルゴリズムを導出できるか？
RQ5最も最近のポリシーだけでなく、複数の過去のポリシーを訓練に用いることで、収束性と安定性がどのように向上するか、実用的意義は何か？

主な発見

AggreVaTe は、誤差低減保証よりも強い統計的レギュレートバウンドを達成し、インタラクティブな模倣学習におけるより強固な理論的基盤を提供する。
本手法は、専門家行動が曖昧であっても、コスト・トゥ・ゴール推定値（例：専門家ロールアウトやヒューリスティクスからのもの）を用いることで、危険なまたは高コストのポリシーの学習を防げる。
強化学習への拡張であるNRPIは、文献に登場する最も強力な結果と同等の理論的保証を提供し、時間経過に伴うレギュレートの観点で性能が保証される。
理論的分析により、探索分布 $ u_{1:T}$ が最適ポリシーの状態分布に収束する場合、AggreVaTe は $ ilde{ au}$ に対して最適ポリシーに収束することが保証される。
実験結果から、最新のポリシーだけでなく複数の過去のポリシーを用いて訓練することで、振動と発散が減少し、近似動的プログラミングにおける安定性が向上することが示唆される。
フレームワークは、専門家ロールアウトをコスト・トゥ・ゴール推定値として用いるヒューリスティック手法（例：SEARN）を、オンラインフランク＝ウォルフを用いたAggreVaTeの特別なケースとして説明できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。