QUICK REVIEW

[논문 리뷰] Optimal Feedback Law Recovery by Gradient-Augmented Sparse Polynomial Regression

Behzad Azmi, Dante Kalise|arXiv (Cornell University)|2020. 07. 19.

Sparse and Compressive Sensing Techniques참고 문헌 69인용 수 28

한 줄 요약

이 논문은 비선형 최적 제어 문제에서 고차원 최적 피드백 법칙을 복원하기 위해 기울기 보정을 적용한 희박 다항 회귀 방법을 제안한다. 포트리아진의 최대원리(Pontryagin’s Maximum Principle)를 활용해 상태-가치-기울기 데이터셋을 생성하고, LASSO 회귀를 통해 하이퍼볼릭 크로스 다항식 모델을 피팅함으로써 훨씬 적은 학습 샘플로 정확한 피드백 법칙을 도출한다—기울기 정보를 포함할 경우 필요한 샘플 수가 90% 감소함을 입증하였으며, 비제로 계수 성분이 15% 미만인 저복잡도 제어 법칙을 유지한다.

ABSTRACT

A sparse regression approach for the computation of high-dimensional optimal feedback laws arising in deterministic nonlinear control is proposed. The approach exploits the control-theoretical link between Hamilton-Jacobi-Bellman PDEs characterizing the value function of the optimal control problems, and first-order optimality conditions via Pontryagin's Maximum Principle. The latter is used as a representation formula to recover the value function and its gradient at arbitrary points in the space-time domain through the solution of a two-point boundary value problem. After generating a dataset consisting of different state-value pairs, a hyperbolic cross polynomial model for the value function is fitted using a LASSO regression. An extended set of low and high-dimensional numerical tests in nonlinear optimal control reveal that enriching the dataset with gradient information reduces the number of training samples, and that the sparse polynomial regression consistently yields a feedback law of lower complexity.

연구 동기 및 목표

비선형 제어 문제에서 고차원 최적 피드백 법칙을 근사하기 위한 계산 효율적인 방법을 개발하는 것.
희박 다항 회귀를 활용해 해밀턴-자코비-벨리만 편미분방정식(Hamilton-Jacobi-Bellman PDEs)의 차원의 극복 문제를 줄이는 것.
회귀 데이터셋에 기울기 정보를 통합함으로써 피드백 법칙 복원의 샘플 효율성을 향상시키는 것.
희박성 유도 LASSO 회귀를 통해 최소 복잡도의 피드백 법칙을 도출하는 것.

제안 방법

포트리아진의 최대원리에서 유도된 두점경계값문제(Two-point boundary value problem, TPBVP)의 해를 이용해 상태-가치 쌍과 그 기울기의 데이터셋을 생성한다.
TPBVP 해를 표현 공식으로 활용해 상태공간 내 임의의 점에서 가치 함수와 그 기울기를 계산한다.
고차원 공간에서 가치 함수를 근사하기 위해 하이퍼볼릭 크로스 다항식 안사트를 구성한다.
계수 벡터의 희박성을 증진시켜 피드백 법칙의 복잡도를 낮추기 위해 LASSO 회귀를 적용한다.
회귀 정확도 향상과 샘플 수 감소를 위해 학습 데이터셋에 기울기 정보를 보완한다.
차원이 증가하는 비선형 최적 제어 문제에 대해 본 방법을 검증하고, 기울기 없이 표준 회귀 방법과 성능을 비교한다.

실험 결과

연구 질문

RQ1기울기 보정 데이터셋은 고차원 최적 제어 문제에서 정확한 피드백 법칙 복원을 위해 필요한 학습 샘플 수를 크게 줄일 수 있는가?
RQ2기울기 정보의 통합이 가치 함수에 대한 다항식 근사의 희박성과 정확성에 어떤 영향을 미치는가?
RQ3LASSO를 통한 희박 다항 회귀가 고샘플 방법과 동등한 성능을 내는 저복잡도 피드백 법칙을 효과적으로 복원할 수 있는가?
RQ4하이퍼볼릭 크로스 다항식 기저가 고차원 가치 함수 근사에서 표준 다항식 기저보다 우월한가?
RQ5PMP 기반 데이터셋 생성 전략은 피드백 법칙 합성에서 HJB 편미분방정식의 직접적 해법을 어느 정도 대체할 수 있는가?

주요 결과

n=80인 고차원 테스트에서, 기울기 보정 희박 회귀는 오직 70개의 학습 샘플을 사용하여 L² 노름 기준 검증 오차 3.56×10⁻²를 달성하였다.
기울기 보정 회귀로부터 유도된 피드백 법칙은 총 3481개 성분 중 비제로 성분이 738개에 불과하여 15% 미만의 희박성을 나타냈다.
동일한 문제에 대해 표준 LASSO 회귀는 더 높은 오차 7.46×10⁻²을 기록하기 위해 2430개의 샘플이 필요했으며, 이는 기울기 보정으로 샘플 수가 90% 감소한 셈이다.
기울기 보정 피드백 법칙은 비선형 제어 문제에서 최적 궤적을 정밀하게 따라가며, 기울기 미포함 방법 및 더 많은 샘플을 요구하는 방법보다 뛰어난 성능을 보였다.
피드백 법칙의 비제로 성분 수를 총 성분 수의 15% 미만으로 줄여 실시간 구현에 효율적인 조건을 제공하였다.
모든 테스트 케이스에서 궤적 비교 및 오차 지표를 통해, 더 적은 샘플 수와 낮은 복잡도로도 뛰어난 제어 성능을 달성하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.