QUICK REVIEW

[論文レビュー] Derivative-Free Methods for Policy Optimization: Guarantees for Linear Quadratic Systems

Dhruv Malik, Ashwin Pananjady|arXiv (Cornell University)|Dec 20, 2018

Stochastic processes and financial applications被引用数 88

ひとこと要約

本論文は、LQR問題における線形方策の最適化に対して微分を用いない（0次）手法を分析し、さまざまなノイズとフィードバック設定の下でε近似最適性を達成するための明示的な多項式的サンプル複雑性境界を導出する。

ABSTRACT

We study derivative-free methods for policy optimization over the class of linear policies. We focus on characterizing the convergence rate of these methods when applied to linear-quadratic systems, and study various settings of driving noise and reward feedback. We show that these methods provably converge to within any pre-specified tolerance of the optimal policy with a number of zero-order evaluations that is an explicit polynomial of the error tolerance, dimension, and curvature properties of the problem. Our analysis reveals some interesting differences between the settings of additive driving noise and random initialization, as well as the settings of one-point and two-point reward feedback. Our theory is corroborated by extensive simulations of derivative-free methods on these systems. Along the way, we derive convergence rates for stochastic zero-order optimization algorithms when applied to a certain class of non-convex problems.

研究の動機と目的

未知のダイナミクスを持つ線形二次制御におけるポリシー探索のための微分なし最適化を動機づけ、分析する。
加法的ノイズとランダム初期化の下で、0次法の収束速度とサンプル複雑性を特徴づける。
公差、次元、およびLQRコストの曲率特性に依存する明示的境界を構築する。

提案手法

非凸で局所的に滑らかなPL関数に適用される標準的な確率的0次法アルゴリズムを研究する。
ランダム方向評価と同じノイズペアから導出される1点および2点0次勾配推定を用いる。
軌跡の多項式個数でε近似解を示す収束保証を証明する。
ランダム初期化および加法的ノイズを伴うLQRコスト関数へ一般結果を特化し、明示的な収束速度を得る。
制御されたステップサイズとマルチンゲール的議論により、反復が安定領域内に留まることを保証する。

実験結果

リサーチクエスチョン

RQ1線形二次系においてεサブ最適方策を得るための微分なし手法のサンプル複雑性はどの程度か。
RQ21点フィードバックと2点フィードバック、ランダム初期化と加法的ノイズの組み合わせが収束速度にどう影響するか。
RQ3鋭い0次収束解析を可能にするLQRコストの曲率・滑らかさ性質は何か。
RQ4安定性制約が0次LQR最適化のパラメータ選択と達成可能な速度にどう影響するか。

主な発見

高確率で0次法を用いればO~(1/ε^2)軌跡からε近似解を達成できる。
各軌跡で2点コスト観測を用いるとこのサンプル数はO~(1/ε)に低減する。
解析は1点フィードバックと2点フィードバック、およびランダム初期化と加法的ノイズ設定の間の二分法的特徴を明らかにする。
ランダム初期化とノイズ付きダイナミクスに対する母集団LQRコストはスケーリング因子の違いだけで同等であり、性質の移行を可能にする。
特定の設定下でεへの依存をO(1/ε^4)からO(1/ε^2)へ改善することにより、以前の境界を鋭化する。
LQRを超える非凸問題のクラスに対する確率的0次最適化の収束速度も提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。