QUICK REVIEW

[论文解读] A Sensitivity-based Data Augmentation Framework for Model Predictive Control Policy Approximation

Dinesh Krishnamoorthy|arXiv (Cornell University)|Sep 15, 2020

Advanced Control Systems Optimization参考文献 31被引用 14

一句话总结

本文提出了一种基于敏感度的数据增强框架，通过利用离线求解的非线性规划（NLP）问题的参数敏感度生成额外的训练样本，从而降低训练模型预测控制（MPC）策略近似所需的计算成本。通过利用NLP敏感度的切线预测器，该方法在显著减少完整优化求解次数的同时，实现了高精度的策略近似，训练成本仅为完整采样数据集的几分之一，性能却与之相当。

ABSTRACT

Approximating model predictive control (MPC) policy using expert-based supervised learning techniques requires labeled training data sets sampled from the MPC policy. This is typically obtained by sampling the feasible state-space and evaluating the control law by solving the numerical optimization problem offline for each sample. Although the resulting approximate policy can be cheaply evaluated online, generating large training samples to learn the MPC policy can be time consuming and prohibitively expensive. This is one of the fundamental bottlenecks that limit the design and implementation of MPC policy approximation. This technical note aims to address this challenge, and proposes a novel sensitivity-based data augmentation scheme for direct policy approximation. The proposed approach is based on exploiting the parametric sensitivities to cheaply generate additional training samples in the neighborhood of the existing samples.

研究动机与目标

为解决使用监督学习为MPC策略近似生成大规模、多样化训练数据集所带来的高计算成本问题。
减少为采样可行状态空间而所需的昂贵离线非线性规划（NLP）求解次数。
开发一种数据增强策略，利用MPC优化问题的参数敏感度，低成本地生成额外的训练样本。
量化并控制在策略近似中使用不精确的、基于敏感度生成的样本所引入的误差。
实现在高维状态空间和参数空间中（包括时变扰动和设定点）的有效MPC策略近似。

提出的方法

将MPC问题视为以初始状态为参数的参数化优化问题，从而支持敏感度分析。
利用Karush-Kuhn-Tucker（KKT）条件，计算最优控制输入对状态扰动的参数敏感度（NLP敏感度）。
使用切线预测器（通过敏感度实现的线性近似）在每个原始样本的邻域内生成新的状态-动作对。
将这些基于敏感度生成的样本加入原始训练数据集，从而减少对完整NLP求解的依赖。
使用增强后的数据集训练深度神经网络策略，结合少量精确的NLP解与大量基于敏感度的近似值。
将该框架应用于一个具有8维状态和参数空间的建筑热力控制案例，包含时变扰动和设定点。

实验结果

研究问题

RQ1MPC问题的参数敏感度是否可用于在不为每个样本求解完整NLP的情况下生成额外的训练样本？
RQ2在使用基于敏感度的增强时，策略近似误差如何随与原始样本距离的增加而变化？
RQ3在通过敏感度增强的稀疏采样数据集上训练的策略，其性能是否可与在完全采样数据集上训练的策略相媲美？
RQ4在MPC策略学习中使用基于敏感度的数据增强时，训练成本与近似精度之间的权衡如何？
RQ5所提出的方法是否可扩展以处理状态空间中的时变扰动和设定点？

主要发现

所提出的基于敏感度的数据增强方案将所需离线NLP求解次数减少了高达95%，显著降低了训练成本。
在闭环仿真中，基于敏感度增强数据集（D+）训练的策略性能几乎与基于完全采样数据集（D++）训练的策略无法区分。
由于基于敏感度的样本导致的近似策略误差与状态扰动范数的平方成正比，即∥∆xi∥²。
仅使用330个精确NLP解（D0）训练的策略表现欠佳，证明了数据增强在实现高精度近似中的必要性。
通过将可测量参数（如环境温度和太阳辐照度）加入状态向量，该方法成功处理了时变扰动和设定点。
该框架在高维空间（如案例研究中的8维）中实现了有效的MPC策略近似，且计算开销极低。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。