QUICK REVIEW

[論文レビュー] A Smoothed Approximate Linear Program

Vijay Desai, Vivek F. Farias|arXiv (Cornell University)|Aug 4, 2009

Reinforcement Learning in Robotics参考文献 10被引用数 19

ひとこと要約

本稿では、高次元の確率的制御問題におけるコスト・トゥ・ゴー関数の近似に向けた、滑らか化された近似線形計画法（SALP）を提案する。従来のLP手法がコスト・トゥ・ゴー近似に対する下界制約を課すのに対し、SALPは滑らか化技術を用いてこの制約を緩和し、はるかにタイトな近似バインディングを達成するとともに、Tetris実験において既存のLP手法と比較して10倍の性能向上を示した。

ABSTRACT

We present a novel linear program for the approximation of the dynamic programming costto-go function in high-dimensional stochastic control problems. LP approaches to approximate DP have typically relied on a natural ‘projection ’ of a well studied linear program for exact dynamic programming. Such programs restrict attention to approximations that are lower bounds to the optimal cost-to-go function. Our program—the ‘smoothed approximate linear program’— is distinct from such approaches and relaxes the restriction to lower bounding approximations in an appropriate fashion while remaining computationally tractable. Doing so appears to have several advantages: First, we demonstrate substantially superior bounds on the quality of approximation to the optimal cost-to-go function afforded by our approach. Second, experiments with our approach on a challenging problem (the game of Tetris) show that the approach outperforms the existing LP approach (which has previously been shown to be competitive with several ADP algorithms) by an order of magnitude. 1.

研究の動機と目的

コスト・トゥ・ゴー近似に対して下界制約を課える既存のLPベースの近似動的計画法の限界を解消すること。
解の品質を損なわせることなく、下界制約を緩和する計算上で実行可能な手法を開発すること。
高次元の確率的制御問題におけるコスト・トゥ・ゴー関数近似の正確性を向上させること。
挑戦的なベンチマーク問題において、確立されたLPベースのADPアプローチと比較して優れた性能を示すこと。

提案手法

最適コスト・トゥ・ゴー関数に対する近似が下界でなければならないという要件を緩和する新しい線形計画法の定式化、すなわち滑らか化された近似線形計画法（SALP）を提案する。
下界制約を緩和することで、よりタイトで正確な近似が可能になる滑らか化メカニズムを導入する。
滑らか化されたペナルティ項または緩和項を組み込むことで、線形計画法の構造を保ちつつ計算の実行可能性を維持する。
正確な動的計画法のLPと類似した射影に基づくアプローチを用いるが、近似が下界でなくてもよいように制約集合を変更する。
標準的なLPソルバーを効率的に使用できる双対定式化を採用し、元のアプローチの構造的利点を保持する。

実験結果

リサーチクエスチョン

RQ1LPベースの近似動的計画法において下界制約を緩和することで、最適コスト・トゥ・ゴー関数への近似品質が著しく向上するか？
RQ2高次元問題において、滑らか化された近似線形計画法は既存のLPベースのADP手法と比較してどのように性能を発揮するか？
RQ3本手法は、近似品質の向上を実現しつつも、計算の実行可能性を維持できるか？
RQ4SALPはTetrisのような挑戦的な確率的制御問題において優れた結果を達成できるか？

主な発見

滑らか化された近似線形計画法（SALP）は、従来のLPベースの手法と比較して、最適コスト・トゥ・ゴー関数への近似品質に関するバインディングを著しくタイトにした。
Tetris問題における実験では、SALPは既存のLPベースのアプローチを10倍の性能で上回り、優れた性能を示した。
滑らか化による下界制約の緩和は、コスト・トゥ・ゴー関数のより正確で、かつより楽観的な近似を可能にした。
本手法は計算の実行可能性を維持しており、高次元の確率的制御問題への実用的応用を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。