QUICK REVIEW

[논문 리뷰] Taylor Expansions of the Value Function Associated with a Bilinear Optimal Control Problem

Tobias Breiten, Karl Kunisch|arXiv (Cornell University)|2017. 06. 16.

Optimization and Variational Analysis참고 문헌 40인용 수 25

한 줄 요약

이 논문은 일반화된 리아푸노프 방정식의 재귀적 해법을 사용하여 무한차원 이차형 최적 제어 문제에 대한 가치 함수의 고차 다항식 전개를 개발한다. 이 방법은 원점 주변에서 가치 함수의 다항식 근사를 구성하여, 초기 상태가 작을 경우 $\mathcal{O}(\|y_0\|^{p+1})$-최적 성능과 최적 제어로의 $\mathcal{O}(\|y_0\|^{(p+1)/2})$-수렴을 달성하는 부분 최적 피드백 법칙을 가능하게 한다.

ABSTRACT

A general bilinear optimal control problem subject to an infinite-dimensional state equation is considered. Polynomial approximations of the associated value function are derived around the steady state by repeated formal differentiation of the Hamilton-Jacobi-Bellman equation. The terms of the approximations are described by multilinear forms, which can be obtained as solutions to generalized Lyapunov equations with recursively defined right-hand sides. They form the basis for defining a suboptimal feedback law. The approximation properties of this feedback law are investigated. An application to the optimal control of a Fokker-Planck equation is also provided.

연구 동기 및 목표

무한차원 힐베르트 공간 내 이차형 최적 제어 문제의 가치 함수를 근사하는 체계적인 방법을 개발하는 것.
초기 상태의 소규모 변화에 대해 부분 최적 성능를 보장하는 가치 함수의 다항 근사를 기반으로 한 피드백 제어 법칙을 유도하는 것.
부분 최적 피드백 법칙의 성능에 대한 엄밀한 오차 경계를 수립하여, 최적 제어로의 수렴 정도를 정량화하는 것.
유한차원에서의 가치 함수 다항 전개 기법을 무한차원 설정으로 확장하여, 특히 PDE로 기술되는 시스템에 적용하는 것.

제안 방법

해밀토니안-자코비-벨만 방정식의 형식적 미분을 통해 가치 함수를 원점 주변에서 차수 $p+1$의 테일러 급수로 전개한다.
계수 $\mathcal{T}_k$는 우변이 재귀적으로 정의된 일반화된 리아푸노프 방정식을 풀어 얻는 다중선형 형식이다.
이차형 형식 $\mathcal{T}_2$는 대칭 행렬 방정식을 만족하지만, $k \geq 3$인 $\mathcal{T}_k$는 연산자 $A_\Pi$와 알려진 우변 $\mathcal{R}_k$를 포함한 일반화된 리아푸노프 방정식을 만족한다.
도함수의 대칭성을 활용하여, 순열 집합과 대칭 다중선형 형식을 사용해 고차항을 압축된 형태로 표현한다.
부분 최적 피드백 법칙은 $\mathbf{u}_p(y) = -\frac{1}{\alpha} D\mathcal{V}_p(y)(Ny + B)$로 구성되며, 여기서 $\mathcal{V}_p$는 가치 함수의 다항식 근사이다.
닫힘형 시스템의 정의성과 수렴성을 분석하고, 테일러 전개의 구조를 이용해 오차 추정치를 도출한다.

실험 결과

연구 질문

RQ1무한차원 이차형 최적 제어 문제에 대해 가치 함수의 고차 다항 전개를 엄밀하게 구성할 수 있는가?
RQ2일반화된 리아푸노프 방정식을 사용해 다항 전개의 계수를 재귀적으로 계산할 수 있는가?
RQ3가치 함수의 다항 근사를 기반으로 유도된 피드백 법칙의 성능 보장 조건은 무엇인가?
RQ4부분 최적 제어가 진정한 최적 제어와 비교해 어떤 수렴 속도를 보일 수 있는가?
RQ5제안된 방법은 포크너-플랭크 방정식과 같은 PDE 제약 제어 문제에 적용 가능한가?

주요 결과

가치 함수는 원점 주변에서 차수 $p+1$의 테일러 전개를 가지며, $\mathcal{V}(y) - \mathcal{V}_p(y) = \mathcal{O}(\|y\|_Y^{p+1})$이다.
계수 $\mathcal{T}_k$ ($k \geq 2$)는 우변이 재귀적으로 정의된 일반화된 리아푸노프 방정식을 만족하는 대칭 다중선형 형식이다.
부분 최적 피드백 법칙 $\mathbf{u}_p$는 비반환 제어를 생성하여 비용이 $\mathcal{J}(\mathbf{U}_p(y_0), y_0) \leq \mathcal{V}(y_0) + \mathcal{O}(\|y_0\|_Y^{p+1})$를 만족한다.
소규모 $y_0$에 대해 부분 최적 제어는 $L^2(0,\infty)$에서 $\|\mathbf{U}_p(y_0) - \bar{u}\|_{L^2} = \mathcal{O}(\|y_0\|_Y^{(p+1)/2})$의 속도로 진정한 최적 제어로 수렴한다.
이 방법은 포크너-플랭크 방정식을 포함한 무한차원 시스템에 적용 가능하여, PDE 제약 제어 문제에 대한 관련성을 입증한다.
분석은 무한차원 이차형 제어 시스템에서 고차 다항 기반 피드백 법칙에 대해 처음으로 엄밀한 수렴 속도 추정치를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.