QUICK REVIEW

[논문 리뷰] Optimal Control Via Neural Networks: A Convex Approach

Yize Chen, Yuanyuan Shi|arXiv (Cornell University)|2018. 05. 30.

Reinforcement Learning in Robotics참고 문헌 33인용 수 27

한 줄 요약

이 논문은 복잡한 동적 시스템에서 최적 제어를 위한 볼록 최적화를 가능하게 하기 위해 입력 볼록 순환 신경망(이하 ICRNN)을 제안한다. 입력에서 출력으로의 볼록성 보장을 통해, 높은 모델 정확도를 유지하면서도 다루기 쉬운 전역 최적의 모델 예측 제어(MPC)를 실현한다. HVAC 제어에서는 에너지 소비를 23.25% 감소시키며, MuJoCo 기반 운동 제어에서는 기존 최상위 수준의 모델 기반 강화학습 대비 5배 빠른 훈련 시간에 10% 이상 높은 성능을 달성한다.

ABSTRACT

Control of complex systems involves both system identification and controller design. Deep neural networks have proven to be successful in many identification tasks, however, from model-based control perspective, these networks are difficult to work with because they are typically nonlinear and nonconvex. Therefore many systems are still identified and controlled based on simple linear models despite their poor representation capability. In this paper we bridge the gap between model accuracy and control tractability faced by neural networks, by explicitly constructing networks that are convex with respect to their inputs. We show that these input convex networks can be trained to obtain accurate models of complex physical systems. In particular, we design input convex recurrent neural networks to capture temporal behavior of dynamical systems. Then optimal controllers can be achieved via solving a convex model predictive control problem. Experiment results demonstrate the good potential of the proposed input convex neural network based approach in a variety of control applications. In particular we show that in the MuJoCo locomotion tasks, we could achieve over 10% higher performance using 5* less time compared with state-of-the-art model-based reinforcement learning method; and in the building HVAC control example, our method achieved up to 20% energy reduction compared with classic linear models.

연구 동기 및 목표

복잡한 시스템의 데이터 기반 제어에서 모델 정확도와 계산의 용이성 간의 상충 관계를 해결한다.
모델 기반 제어에서 신뢰할 수 있는 최적화를 방해하는 기존 신경망의 비볼록성 문제를 해결한다.
입력에 대해 볼록인 신경망 아키텍처를 개발하여 볼록 MPC를 통한 전역 최적 제어를 가능하게 한다.
시간적 동역학을 모델링하기 위해 순환 구조를 활용하여 볼록 신경망의 적용 범위를 확장한다.
선형 모델과 전통적인 RNN에 비해 실제 제어 과제인 건물 HVAC 관리 및 로봇 운동 제어에서 뛰어난 성능을 보여준다.

제안 방법

입력에 대해 볼록인 입력 볼록 순환 신경망(ICRNN)을 제안하여 제어를 위한 볼록 최적화를 가능하게 한다.
예측된 시스템 출력과 실제 출력 간의 평균 제곱오차를 최소화하기 위해 확률적 경사 하강법을 사용해 ICRNN을 훈련시킨다.
훈련된 ICRNN을 사용하여 시스템 동역학을 볼록 모델 예측 제어(MPC) 프레임워크에 통합하고 전역 최적성을 보장한다.
최적 제어 문제를 시스템 동역학 및 물리적 제약 조건을 충족하는 볼록 최적화 문제로 공식화한다.
입력 볼록성 덕분에 신뢰성 있는 수렴을 보장하는 경사 기반 최적화를 사용해 유한 시간 영역 내에서 MPC 문제를 해결한다.
시간적 종속성을 모델링하기 위해 순환 아키텍처로 입력 볼록 네트워크 프레임워크를 확장한다.

실험 결과

연구 질문

RQ1복잡한 동적 시스템에 대해 높은 모델링 정확도를 유지하면서도 입력에 대해 볼록인 딥 신경망 아키텍처를 설계할 수 있는가?
RQ2볼록 신경망이 실시간 제어 응용 분야에서 전역 최적이고 계산적으로 다루기 쉬운 모델 예측 제어를 가능하게 할 수 있는가?
RQ3ICRNN 기반 제어의 성능은 선형 모델과 전통적인 RNN에 비해 제어 정확도 및 에너지 효율성 측면에서 어떻게 비교되는가?
RQ4ICRNN는 비선형 건물 HVAC 동역학을 효과적으로 모델링하고 제약 조건이 있는 환경에서 안정적이고 최적의 제어 조작을 도출할 수 있는가?
RQ5네트워크 아키텍처의 볼록성은 제어 과제에서 최적화 신뢰성과 수렴 성능을 얼마나 향상시키는가?

주요 결과

ICRNN는 건물 HVAC 동역학 모델링에서 테스트 루트 평균 제곱 오차(RMSE)가 0.054를 기록했으며, 전통적인 RNN(0.051)과 유사하고 선형 RC 모델(0.240)에 비해 뚜렷이 뛰어나다.
ICRNN 기반 MPC는 온도 제약 조건 하에서 건물 에너지 소비를 23.25% 감소시켰으며, 전통적인 RNN(11.73% 절감)과 선형 RC 모델(4.07% 절감)을 모두 능가했다.
ICRNN는 안정적이고 부드러운 제어 조작 신호를 생성한 반면, 전통적인 RNN은 큰 변동성을 보이며 매우 비정상적이고 불안정한 제어 신호를 생성했다.
MuJoCo 기반 운동 제어 과제에서 ICRNN 기반 방법은 최신 기술 수준의 모델 기반 강화학습보다 10% 이상 높은 성능을 달성했으며, 훈련 시간은 5배 빠르게 소요되었다.
이론적 분석을 통해 ICRNN는 모든 볼록 함수를 표현할 수 있으며, 볼록 함수 표현에 있어 조각별 선형 근사보다 지수적으로 더 효율적임을 확인했다.
ICRNN의 볼록성 덕분에 도출된 MPC 문제 역시 볼록이 되어 실시간 제어 응용 분야에서 전역 최적성과 신뢰성 있는 수렴을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.