[論文レビュー] Smooth Sampling-Based Model Predictive Control Using Deterministic Samples
dsMPPI は決定論的サンプリングと MPPI-スタイルの指数的ウェイティングを組み合わせ、非線形 MPC における追加オンライン計算なしでより滑らかな制御入力を実現します。入力の滑らかさで MPPI および dsCEM を上回り、費用は競争力を維持します。
Sampling-based model predictive control (MPC) is effective for nonlinear systems but often produces non-smooth control inputs due to random sampling. To address this issue, we extend the model predictive path integral (MPPI) framework with deterministic sampling and improvements from cross-entropy method (CEM)--MPC, such as iterative optimization, proposing deterministic sampling MPPI (dsMPPI). This combination leverages the exponential weighting of MPPI alongside the efficiency of deterministic samples. Experiments demonstrate that dsMPPI achieves smoother trajectories compared to state-of-the-art methods.
研究の動機と目的
- サンプリングベースの MPC におけるより滑らかな制御入力の必要性を動機付け、アクチュエータの摩耗とチャタリングを低減する。
- 決定論的サンプリングと指数的 MPPI ウェイティングをブレンドする dsMPPI を提案する。
- 時間相関を持つ決定論的サンプルとモーメント・スムージングを活用して探索と安定性を向上させる。
- 非線形タスクにおいて競争力のある性能を維持しつつ、制御入力の滑らかさを改善することを実証する。
提案手法
- ニューメリカル安定性のための重要度ウェイトとコストシフトを用いた反復的で MPPI に類似した更新を行う。
- 計算負荷を低く保つためにガウス提案の限界分散のみを更新する。
- 事前計算済みの決定論的サンプルを L_j と共分散の平方根を用いて現在の提案へ変換する。
- 反復間で平均と共分散の更新にモーメント・スムージングを組み込む。
- 正規化定数 eta に基づいて逆温度 lambda_j を適応的に調整する。
- 探索を強化するための決定論的サンプルの変動スキーム(置換と多反復)を導入する。
- Toeplitz 構造を用いた固定の時間相関行列 C_rho による時間相関サンプリングを構築し、時間的な滑らかさを捉える。
- 制御入力を境界にクランプし、反復間でベストな軌道を保持するバッファを使用する。
- 前回の MPC ステップからのシフトした列を用いて提案をウォームスタートする。

実験結果
リサーチクエスチョン
- RQ1決定論的サンプリングと MPPI ウェイティングを組み合わせることで、標準 MPPI および dsCEM に比べて軌道の滑らかさが改善されるか。
- RQ2置換と多反復の変動スキームは性能と探索にどのように影響するか。
- RQ3dsMPPI の計算オーバーヘッドはランダムサンプリング MPC と比べてどの程度か。
- RQ4時間相関サンプリングとモーメント・スムージングは dsMPPI の安定性と収束を向上させるか。
主な発見
| Method | Cart-Pole Swing-Up (ms) | Truck Backer-Upper (ms) |
|---|---|---|
| MPPI | 0.0571 ± 0.0084 | 0.0107 ± 0.0004 |
| MPPI Iterative | 0.1666 ± 0.0229 | 0.0357 ± 0.0020 |
| dsMPPI Permut. | 0.1675 ± 0.0274 | 0.0374 ± 0.0026 |
| dsMPPI Multi-Iter. | 0.1667 ± 0.0255 | 0.0373 ± 0.0027 |
| dsCEM Permut. | 0.1661 ± 0.0239 | 0.0356 ± 0.0028 |
| dsCEM Multi-Iter. | 0.1670 ± 0.0242 | 0.0358 ± 0.0032 |
- dsMPPI は MPPI および dsCEM よりも滑らかな制御入力を生み出し、特にサンプル数が大きい場合に顕著である。
- 置換変動は、 tested タスクにおいて多反復スキームより累積コストを改善する。
- dsMPPI はランダムサンプリング MPC 方法と比較して追加のオンライン計算オーバーヘッドなしで競争力のある累積コストを達成する。
- dsMPPI は cart-pole の揺り動かしおよび truck backer-upper タスクの安定性指標で標準 MPPI を上回る滑らかさを示す。
- 決定論的サンプルを活用してサンプル効率を向上させつつ、性能を維持する。
- dsMPPI の各制御ステップの計算時間は他の反復的手法と同程度であり、標準 MPPI より大幅に高いが、ランダムサンプリングと比べたオンラインコストは増えない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。