QUICK REVIEW

[논문 리뷰] A Sensitivity-based Data Augmentation Framework for Model Predictive Control Policy Approximation

Dinesh Krishnamoorthy|arXiv (Cornell University)|2020. 09. 15.

Advanced Control Systems Optimization참고 문헌 31인용 수 14

한 줄 요약

이 논문은 사전에 해결된 비선형계획문제(NLP)의 매개변수 민감도를 이용하여 추가적인 학습 샘플을 생성함으로써 모델 예측 제어(MPC) 정책 근사의 학습 비용을 줄이는 민감도 기반 데이터 증강 프레임워크를 제안한다. NLP 민감도로부터 유도된 탄성 예측자(tangential predictors)를 활용함으로써, 전체 최적화 해를 푸는 횟수를 크게 줄이고도 정확한 정책 근사가 가능해지며, 전체 샘플링 데이터셋과 유사한 성능을 낮은 학습 비용으로 달성한다.

ABSTRACT

Approximating model predictive control (MPC) policy using expert-based supervised learning techniques requires labeled training data sets sampled from the MPC policy. This is typically obtained by sampling the feasible state-space and evaluating the control law by solving the numerical optimization problem offline for each sample. Although the resulting approximate policy can be cheaply evaluated online, generating large training samples to learn the MPC policy can be time consuming and prohibitively expensive. This is one of the fundamental bottlenecks that limit the design and implementation of MPC policy approximation. This technical note aims to address this challenge, and proposes a novel sensitivity-based data augmentation scheme for direct policy approximation. The proposed approach is based on exploiting the parametric sensitivities to cheaply generate additional training samples in the neighborhood of the existing samples.

연구 동기 및 목표

감독학습을 이용한 MPC 정책 근사에 필요한 대규모이고 다양한 학습 데이터셋을 생성하는 데 드는 높은 계산 비용을 해결하기 위해.
가능한 상태공간을 샘플링하기 위해 필요한 고비용의 사전 계산 비선형계획문제(NLP) 해를 줄이기 위해.
MPC 최적화 문제의 매개변수 민감도를 이용하여 저비용으로 추가 학습 샘플을 생성하는 데이터 증강 전략을 개발하기 위해.
민감도 기반으로 생성된 근사 샘플이 정책 근사에 미치는 오차를 정량화하고 통제하기 위해.
시간에 따라 변화하는 외란과 목표치를 포함한 고차원 상태공간 및 매개변수 공간에서도 효과적인 MPC 정책 근사가 가능하도록 하기 위해.

제안 방법

MPC 문제를 초기 상태에 따라 매개변수화된 최적화 문제로 간주하여 민감도 분석을 수행한다.
카루시-쿠른-터커(KKT) 조건을 이용해 상태 변화에 대한 최적의 제어 입력의 매개변수 민감도(NLP 민감도)를 계산한다.
민감도를 통한 선형 근사(탄성 예측자)를 이용해 각 원본 샘플 주변의 새로운 상태-행동 쌍을 생성한다.
이 민감도 기반으로 생성된 샘플을 원본 학습 데이터셋에 추가함으로써 전체 NLP 해를 풀어야 하는 의존도를 줄인다.
작은 수의 정확한 NLP 해와 많은 수의 민감도 기반 근사치를 조합하여 딥 네URAL 네트워크 정책을 훈련한다.
시간에 따라 변화하는 외란과 목표치를 포함한 8차원 상태 및 매개변수 공간을 가진 건물 열제어 사례에 프레임워크를 적용한다.

실험 결과

연구 질문

RQ1MPC 문제의 매개변수 민감도를 이용해 각각의 완전한 NLP 해를 구하지 않고도 추가적인 학습 샘플을 생성할 수 있는가?
RQ2민감도 기반 증강을 사용할 경우, 원본 샘플에서의 거리 증가에 따라 정책 근사 오차가 어떻게 변화하는가?
RQ3민감도 기반으로 증강된 희소 샘플링 데이터셋으로 훈련된 정책이 완전히 샘플링된 데이터셋으로 훈련된 정책과 유사한 성능을 낼 수 있는가?
RQ4MPC 정책 학습에서 민감도 기반 데이터 증강을 사용할 경우, 학습 비용과 근사 정확도 사이의 상충 관계는 어떠한가?
RQ5제안된 방법은 상태공간 내 시간에 따라 변화하는 외란과 목표치를 다룰 수 있도록 확장될 수 있는가?

주요 결과

제안된 민감도 기반 데이터 증강 전략은 필요로 하는 사전 계산 비선형계획문제(NLP) 해의 수를 최대 95%까지 줄여 학습 비용을 크게 낮춘다.
민감도 증강 데이터셋(D+)으로 훈련된 정책은 닫힌 루프 시뮬레이션에서 완전히 샘플링된 데이터셋(D++)으로 훈련된 정책과 거의 구분되지 않는 성능을 보였다.
민감도 기반 샘플에 의한 근사 정책의 오차는 상태 변화의 노름 ∥∆xi∥²에 대해 제곱적으로 증가하는 경향을 보였다.
오직 330개의 정확한 NLP 해(D0)로만 훈련된 정책은 성능이 열악하여 정확한 근사를 위해 데이터 증강이 필수적임을 입증하였다.
환경 온도와 일사량과 같은 측정 가능한 매개변수를 상태 벡터에 추가함으로써, 이 방법은 시간에 따라 변화하는 외란과 목표치를 효과적으로 처리하였다.
이 프레임워크는 최소한의 계산 오버헤드로 고차원 공간(예: 사례 연구에서 8차원)에서도 효과적인 MPC 정책 근사가 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.