[論文レビュー] Flow Policy Gradients for Robot Control
要約: 本論文は FPO++ を提案する。これは表現力豊かなフローベースのポリシーのトレーニングを安定化させる flow policy gradient メソッドで、スクラッチ学習、シム-to-real 転送、デモからのファインチューニングを、明示的な尤度なしで可能にする。
Likelihood-based policy gradient methods are the dominant approach for training robot control policies from rewards. These methods rely on differentiable action likelihoods, which constrain policy outputs to simple distributions like Gaussians. In this work, we show how flow matching policy gradients -- a recent framework that bypasses likelihood computation -- can be made effective for training and fine-tuning more expressive policies in challenging robot control settings. We introduce an improved objective that enables success in legged locomotion, humanoid motion tracking, and manipulation tasks, as well as robust sim-to-real transfer on two humanoid robots. We then present ablations and analysis on training dynamics. Results show how policies can exploit the flow representation for exploration when training from scratch, as well as improved fine-tuning robustness over baselines.
研究の動機と目的
- 単純なガウシアンポリシーを超えるロボット制御のための表現力豊かな flow ベースポリシーの使用を動機づける。
- 挑戦的なロボットタスクで flow ポリシーの最適化を安定化させる頑健な訓練アルゴリズム(FPO++)を開発する。
- スクラッチ学習、シム-to-real 転送、デモからのファインチューニングを運動、追従、操作に渡って示す。
- 訓練ダイナミクスとアブレーションを分析し、安定性と性能を向上させるメカニズムを理解する。
提案手法
- フローマッチングポリシーグラディエントを用いて flow ベースのポリシーの明示的な尤度を避ける。
- ミニバッチ内の各サンプルを独立してクリッピングできるようサンプルごとの比率クリップを導入する。
- 正の利得には PPO クリッピングを、負の利得には SPO ベースの指針を組み合わせた非対称トラスト領域(ASPO)を採用する。
- 評価時のゼロサンプリングを組み込み、評価を改善しレイテンシを低減する。
- 条件付きフローマッチング(CFM)損失を定義し、行動尤度を計算せずにフロー更新を推定する。
- 運動、ヒューマノイドのシム-to-real、操作のファインチューニングタスクで安定性と頑健性を検証する。

実験結果
リサーチクエスチョン
- RQ1実世界のロボティクスで明示的な尤度なしのポリシー勾配法で flow ベースのポリシーを効果的に訓練できるか。
- RQ2サンプルごとの比率クリッピングとASPOは挑戦的なロボットタスクで安定性と性能を改善するか。
- RQ3テスト時のゼロサンプリングはシム-to-real 転送と flow ポリシーの評価に有益か。
- RQ4スクラッチ学習、シム-to-real 転送、デモからのファインチューニングを運動、追従、操作全般で how するか。
- RQ5FPO++ がガウシアン PPO と比較して訓練ダイナミクスと頑健性の主要因は何か。
主な発見
- FPO++ は標準の FPO が失敗した運動とヒューマノイドタスクで訓練の安定性を著しく向上させた。
- テスト時のゼロサンプリングは評価性能とシム-to-real 転送を高めることが多く、計算を減らす場合もある。
- サンプルごとの比率クリッピングはサンプルごとの比率より高く一貫したリターンを生む。
- ASPO トラスト領域はエントロピーを保持し訓練を安定化させ、多くの運動タスクで最終的な性能を改善した。
- flow ポリシーは FPO++ で訓練するとガウシアン PPO より表現力豊かなアクション結合を示し、多様でタスク適切な歩様を生む。
- デモからのファインチューニングで FPO++ は DPPO 系を含むベースラインより多くのManipulationタスクで上回った。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。