QUICK REVIEW

[논문 리뷰] Polytopic Input Constraints in Learning-Based Optimal Control Using Neural Networks

Lukas Markolf, Olaf Stursberg|arXiv (Cornell University)|2021. 05. 07.

Advanced Control Systems Optimization참고 문헌 18인용 수 10

한 줄 요약

이 논문은 이산시간 시스템에서 다각형 입력 제약 조건 하에 최적 제어를 학습하는 데 두 가지 새로운 신경망 기반 접근법을 제안한다. 첫 번째 방법은 상태에 따라 달라지는 제약 조건을 만족시키면서 부분 최적 입력을 계산하기 위해 폐쇄형 신경망 기울기와 기울기 기반 최적화를 사용한다. 두 번째 방법은 소프트맥스 활성화를 통해 입력 제약 조건 정점의 볼록 조합을 매개변수화하여 제약 조건을 사전에 보장한다. 두 방법 모두 이론적 보장을 바탕으로 효율적이고 안전하며 실시간으로 작동하는 모델 예측 제어를 가능하게 한다.

ABSTRACT

This work considers artificial feed-forward neural networks as parametric approximators in optimal control of discrete-time systems. Two different approaches are introduced to take polytopic input constraints into account. The first approach determines (sub-)optimal inputs by the application of gradient methods. Closed-form expressions for the gradient of general neural networks with respect to their inputs are derived. The approach allows to consider state-dependent input constraints, as well as to ensure the satisfaction of state constraints by exploiting recursive reachable set computations. The second approach makes use of neural networks with softmax output units to map states into parameters, which determine (sub-)optimal inputs by a convex combination of the vertices of the input constraint set. The application of both approaches in model predictive control is discussed, and results obtained for a numerical example are used for illustration.

연구 동기 및 목표

신경망을 사용한 학습 기반 최적 제어에 다각형 입력 제약 조건을 통합하는 데 도전하는 것.
모델 예측 제어를 위한 실시간 계산을 가능하게 하면서도 제약 조건 이행을 보장하는 방법을 개발하는 것.
입력 타당성에 대한 사전 보장을 신경망 아키텍처 설계를 통해 달성하여 후행 분석이나 제약 조건 완화를 피하는 것.
도달 가능 집합 계산을 통해 상태에 따라 달라지는 입력 제약 조건과 재귀적 상태 제약 조건을 고려할 수 있도록 하는 것.

제안 방법

입력에 대한 피드포워드 신경망의 폐쇄형 기울기를 유도하여, 다각형 제약 조건 하에서 입력 선택을 위한 기울기 기반 최적화를 가능하게 한다.
신경망으로 근사된 목적 함수를 최소화하기 위해 조건부 기울기 방법을 적용하며, 제약 조건은 상태에 따라 달라지는 다각형 집합을 통해 구현한다.
출력이 입력 제약 조건 정점의 볼록 조합이 되는 신경망 아키텍처를 제안하며, 타당성을 보장하기 위해 소프트맥스 활성화 출력을 사용하여 매개변수화한다.
신경망을 통해 상태에서 제어 입력으로의 매핑을 수행하여, 제어 입력이 본질적으로 입력 제약 집합 내에 있도록 한다.
생성된 훈련 데이터를 기반으로 순차적 동적 프로그래밍과 레벤버그-마르카르트 알고리즘을 사용해 신경망을 훈련시킨다.
선형 시스템을 대상으로 한 수치 예제에서 두 방법 모두 표준 모델 예측 제어와 성능을 비교하여 검증한다.

실험 결과

연구 질문

RQ1실시간 응용에서 다각형 입력 제약 조건을 만족시키면서 신경망을 사용해 최적 제어 법칙을 근사할 수 있는가?
RQ2신경망의 폐쇄형 기울기를 활용하여 이산화에 의존하지 않고 제약 조건이 있는 입력 선택 최적화를 수행할 수 있는가?
RQ3어떤 신경망 아키텍처가 입력이 다각형 제약 집합 내에 있도록 사전에 보장할 수 있는가? 이는 입력 상태와 무관하게 가능해야 한다.
RQ4모델 예측 제어 문제에 적용했을 때, 제안된 두 방법은 계산 속도, 제약 조건 이행, 부분 최적성 측면에서 어떻게 비교되는가?
RQ5시간 제약으로 최적화가 조기에 종료될 경우에도 제안된 방법이 재귀적 타당성과 상태 제약 이행을 보장할 수 있는가?

주요 결과

기울기 기반 방법은 표준 노트북에서 반복당 약 0.03초 내에 부분 최적 제어 입력을 도출하여 실시간 적용이 가능했다.
기울기 기반 방법에서 유도된 상태 및 입력 궤적은 최적 MPC 해와 거의 구분되지 않으며, 최소한의 부분 최적성만을 보였다.
소프트맥스 기반 방법은 기울기 방법보다 100배 이상 빠르게 작동했으며, 제어 입력 생성에 밀리초의 일부분도 걸리지 않았다.
두 방법 모두 입력 제약 조건 이행을 보장했으며, 기울기 방법은 재귀적 도달 가능 집합 계산을 통해 상태 제약 이행까지 보장했다.
소프트맥스 기반 아키텍처는 입력 정점의 볼록 조합을 매개변수화하여 타당한 입력을 성공적으로 생성했으며, 사전에 타당성을 보장했다.
수치 결과는 동적 프로그래밍 체인에서의 근사 오차가 성능을 크게 떨어뜨리지 않음을 보여주어 제안된 방법의 강건성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.