QUICK REVIEW

[論文レビュー] Agnostic System Identification for Model-Based Reinforcement Learning

Stéphane Ross, J. Andrew Bagnell|arXiv (Cornell University)|Mar 5, 2012

Advanced Bandit Algorithms Research参考文献 16被引用数 47

ひとこと要約

本稿では、真のシステムがモデルクラスに含まれない（アグノスティックな設定）場合でも強力な性能保証を達成できる、モデルベース強化学習の反復的オンライン学習手法を提案する。現在の方策に従って逐次データを収集し、ノーレグレットオンライン学習アルゴリズムでモデルを更新することで、サンプル複雑性がMDPのサイズではなくモデルクラスの複雑性にのみ比例するように保証され、サンプル複雑性が低く、より優れた性能を示す。特に、困難なヘリコプター制御タスクにおいて、バッチ手法や先行するMBRL手法を凌駆する性能を発揮する。

ABSTRACT

A fundamental problem in control is to learn a model of a system from observations that is useful for controller synthesis. To provide good performance guarantees, existing methods must assume that the real system is in the class of models considered during learning. We present an iterative method with strong guarantees even in the agnostic case where the system is not in the class. In particular, we show that any no-regret online learning algorithm can be used to obtain a near-optimal policy, provided some model achieves low training error and access to a good exploration distribution. Our approach applies to both discrete and continuous domains. We demonstrate its efficacy and scalability on a challenging helicopter domain from the literature.

研究の動機と目的

既存のMBRL手法が真のシステムがモデルクラスに含まれることを前提としているという制限を解消する。
真のシステムがモデルクラスに表現できない可能性があるアグノスティックな設定においても、性能保証を提供する。
サンプル複雑性をMDPのサイズではなくモデルクラスの複雑性にのみ依存させるように低減する。
現実の制御応用における制御則設計とシステム同定の反復的実践を形式化し、改善する。
遅延とノイズを伴う困難なシミュレーテッドヘリコプター領域において、本手法の有効性とスケーラビリティを示す。

提案手法

現在のモデルから導かれる方策を実行し、モデルを精緻化するための新しいデータを収集する反復的アルゴリズムを提案する。
累積予測誤差が非線形に増加するのを防ぐために、ノーレグレットオンライン学習アルゴリズムを用いてモデルを更新する。
データ収集中に状態-行動空間を十分にカバーするため、行動の確率分布（探索分布）を導入する。
政策のレグレットとモデル予測誤差を結びつける還元ベースの解析を適用し、アグノスティックな保証を可能にする。
ヘリコプター領域における非マルコフ的ダイナミクスに対し、時間変動型線形モデルを適用し、各時刻でモデルパラメータを更新する。
比較のためのベースラインとして、初期データから一度だけモデルをフィッティングし、その後は更新を行わないバッチ手法を用いる。

実験結果

リサーチクエスチョン

RQ1真のシステムがモデルクラスに含まれないアグノスティックな設定において、モデルベース強化学習アルゴリズムが強力な性能保証を達成できるか？
RQ2適応的データ収集を伴う反復的オンライン学習アプローチは、静的データ収集に依存するバッチ手法を上回るか？
RQ3MBRLのサンプル複雑性をMDPのサイズから分離し、モデルクラスの複雑性にのみ依存させられるか？
RQ4探索分布の選択が、学習済み方策の収束性と性能に与える影響は何か？
RQ5提案手法は、レグレット保証の観点から、モデルフリーRL手法を同等または上回る性能を達成できるか？

主な発見

提案された反復的手法DAggerは、異なる探索分布を用いたすべての実験設定で、バッチ手法を一貫して上回る。
DAggerはバッチ手法よりも収束が早く、テスト軌道における平均総コストも低く抑えられ、たとえバッチ手法が最適な探索分布を使用しても同様である。
DAggerは、学習済み方策が訪問する状態のモデルをより良く学習し、ノイズと遅延が存在する状況でも、エキスパート方策を上回る性能を発揮する。
Abbeelの手法は最初の反復でのエキスパートデモンストレーションに依存するが、継続的な探索が不足しているため、早期に停滞し、DAggerより性能が劣る。
限られたサンプル数（100サンプル/反復）でのモデルフリー方策勾配法はわずかな改善にとどまり、本手法のMBRLアプローチの優位性が顕著に現れる。
ノーズインファンネルマニューバーにおいて、DAggerはノイズが存在する中で4回の完全な回転を成功裏に実行したが、初期のモデルベース制御則は完全に失敗した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。