QUICK REVIEW

[논문 리뷰] Smooth Sampling-Based Model Predictive Control Using Deterministic Samples

Markus Walker, Marcel Reith‐Braun|arXiv (Cornell University)|2026. 01. 07.

Advanced Control Systems Optimization인용 수 0

한 줄 요약

dsMPPI는 결정론적 샘플링을 MPPI 스타일의 지수 가중치와 결합하여 비선형 MPC에서 추가 온라인 계산 없이 더 매끄러운 제어 입력을 생성합니다. 입력 매끄러움 측면에서 MPPI 및 dsCEM을 능가하면서 비용은 경쟁력을 유지합니다.

ABSTRACT

Sampling-based model predictive control (MPC) is effective for nonlinear systems but often produces non-smooth control inputs due to random sampling. To address this issue, we extend the model predictive path integral (MPPI) framework with deterministic sampling and improvements from cross-entropy method (CEM)--MPC, such as iterative optimization, proposing deterministic sampling MPPI (dsMPPI). This combination leverages the exponential weighting of MPPI alongside the efficiency of deterministic samples. Experiments demonstrate that dsMPPI achieves smoother trajectories compared to state-of-the-art methods.

연구 동기 및 목표

샘플링 기반 MPC에서 작동자 마모 및 채터링 감소를 위한 더 매끄러운 제어 입력의 필요성에 대한 동기 부여.
결과적으로 결정론적 샘플링과 지수 MPPI 가중치를 결합한 dsMPPI를 제안합니다.
시간 상관이 있는 결정론적 샘플링과 모멘텀 스무딩을 활용하여 탐색성과 안정성을 개선합니다.
비선형 작업에서 경쟁력 있는 성능을 유지하면서 제어 입력의 매끄러움을 개선함을 입증합니다.

제안 방법

수치 안정성을 위한 중요도 가중치 및 비용 이동이 포함된 MPPI 유사 업데이트를 반복적으로 수행합니다.
계산 비용을 낮게 유지하기 위해 가우시안 제안의 주변 분산만 업데이트합니다.
이전에 미리 계산된 결정론적 샘플을 L_j와 공분산의 제곱근을 사용하여 현재 제안으로 변환합니다.
반복 간 평균과 공분산 업데이트에 모멘텀 스무딩을 적용합니다.
정규화 상수 eta에 기반하여 역온도 lambda_j를 적응적으로 조정합니다.
탐색 강화에 대한 결정론적 샘플의 변이 스킴(치환 및 다중 반복)을 도입합니다.
Toeplitz 구조를 이용한 고정 시간상관 행렬 C_rho를 통해 시간 상관 샘플링을 구성합니다.
제어 입력을 경계로 제한하고 반복 간 최적 경로를 보관하기 위한 버퍼를 사용합니다.
이전 MPC 단계에서 시퀀스를 이동하여 제안의 워밍업을 수행합니다.

Figure 1 : Control input trajectories (five runs per method) for the cart-pole swing-up task. The proposed dsMPPI yields smoother inputs than MPPI and dsCEM.

실험 결과

연구 질문

RQ1결정론적 샘플링과 MPPI 가중치의 결합이 표준 MPPI 및 dsCEM에 비해 궤적 매끄러움을 향상시키는가?
RQ2치환 및 다중 반복 변이 스킴이 성능 및 탐색에 어떤 영향을 미치는가?
RQ3dsMPPI의 계산 오버헤드는 무작위 샘플링 MPC 방식에 비해 어떤가?
RQ4시간 상관 샘플링과 모멘텀 스무딩이 dsMPPI의 안정성 및 수렴에 도움을 주는가?

주요 결과

방법	카트-폴 스윙업 (ms)	트럭 백업-업 (ms)
MPPI	0.0571 ± 0.0084	0.0107 ± 0.0004
MPPI Iterative	0.1666 ± 0.0229	0.0357 ± 0.0020
dsMPPI Permut.	0.1675 ± 0.0274	0.0374 ± 0.0026
dsMPPI Multi-Iter.	0.1667 ± 0.0255	0.0373 ± 0.0027
dsCEM Permut.	0.1661 ± 0.0239	0.0356 ± 0.0028
dsCEM Multi-Iter.	0.1670 ± 0.0242	0.0358 ± 0.0032

dsMPPI는 MPPI 및 dsCEM보다 더 큰 샘플 크기에서 제어 입력의 매끄러움이 더 좋다.
치환 변이 방식이 다중 반복 스킴보다 누적 비용을 개선한다는 것을 여러 과제에서 보였다.
dsMPPI는 무작위 샘플링 MPC 방식에 비해 추가 온라인 계산 오버헤드 없이 누적 비용이 경쟁력있게 나타났다.
카트-폴 스윙업 및 트럭 백업-업 과제에서 표준 MPPI보다 매끄러움 지표가 더 우수하다.
결정론적 샘플을 활용해 샘플 효율성을 개선하면서 성능을 유지한다.
dsMPPI의 제어 단계당 연산 시간은 다른 반복적 방법과 비슷하지만 표준 MPPI보다 온라인 비용이 큰 차이가 없으며 무작위 샘플링에 비해 더 높은 편이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.