[论文解读] ENFORCE: Nonlinear Constrained Learning with Adaptive-depth Neural Projection
ENFORCE 引入一个神经网络架构,通过嵌入自适应深度神经投影(AdaNP)模块,能够以标准训练和可控计算量实现对非线性等式约束的精确满足。
Ensuring neural networks adhere to domain-specific constraints is crucial for addressing safety and ethical concerns while also enhancing inference accuracy. Despite the nonlinear nature of most real-world tasks, existing methods are predominantly limited to affine or convex constraints. We introduce ENFORCE, a neural network architecture that uses an adaptive projection module (AdaNP) to enforce nonlinear equality constraints in the predictions. We prove that our projection mapping is 1-Lipschitz, making it well-suited for stable training. We evaluate ENFORCE on an illustrative regression task and for learning solutions to high-dimensional optimization problems in an unsupervised setting. The predictions of our new architecture satisfy $N_C$ equality constraints that are nonlinear in both the inputs and outputs of the neural network, while maintaining scalability with a tractable computational complexity of $\mathcal{O}(N_C^3)$ at training and inference time.
研究动机与目标
- 推动需要严格满足领域特定非线性约束的神经网络的必要性。
- 提出 ENFORCE,一种通过结构设计来强制非线性等式约束的神经网络架构。
- 实现使用标准无约束优化器的训练,同时在任意容忍度下保证约束满足。
- 引入 AdaNP,一种自适应深度投影模块,对非线性约束进行局部线性化。
- 研究骨干网络复杂度、AdaNP 深度与约束容忍度之间的权衡。
提出的方法
- 将约束执行建模为基于 x、ŷ 的一阶泰勒展开的局部线性化二次规划(QP)。
- 定义一个可微分的投影(NP)层,解线性化 QP 并将 ŷ 投影到 c(x,y)=0 的切平面上。
- 将 AdaNP 构造成多个 NP 层的组合,以实现非线性约束的任意容忍度 ε。
- 使用无约束优化器训练 ENFORCE,同时在投影位移上加入惩罚项,以控制复杂度并引导学习。
- 利用自动微分计算局部雅可比矩阵 J_y c,并实现高效、并行化的投影。
实验结果
研究问题
- RQ1在神经网络体系结构中,是否可以在不使用外部求解器的情况下,精确执行同时涉及输入和输出的非线性代数等式约束?
- RQ2自适应深度神经投影(AdaNP)如何在平衡计算成本的同时实现任意容忍度的约束满足?
- RQ3与无约束基线相比,受约束学习对预测准确性的影响,尤其在数据稀缺情形下如何?
- RQ4应如何构造训练损失以控制投影位移并促进高效收敛?
- RQ5在推理阶段,AdaNP 深度对不同容忍度和骨干网络的影响有何体现?
主要发现
| MAPE [%] | R^2 | Avg Residual [%] | Max Residual [%] | Inference Time [s] | |
|---|---|---|---|---|---|
| MLP | 0.339 ± 0.083 | 0.994 ± 0.003 | 1.47 ± 0.33 | 17.13 ± 3.94 | 0.002 ± 0.000 |
| Soft | 0.944 ± 0.143 | 0.972 ± 0.002 | 1.55 ± 0.16 | 7.77 ± 0.40 | 0.002 ± 0.000 |
| ENFORCE | 0.060 ± 0.028 | 0.999 ± 0.000 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.008 ± 0.003 |
- ENFORCE 添加一个可微分的 AdaNP 层到任意骨干网络后,能够在任意容忍度下保证非线性等式约束。
- 单层 NP 层可以执行仿射在 y、非线性在 x 的约束;AdaNP 通过将多个 NP 层组合扩展到非线性约束。
- 与无约束 MLP 和软约束神经网络相比,ENFORCE 的约束残差显著更低(平均 0.00%,最大 0.00%),预测精度高(R^2 约为 0.999)。
- 推理阶段仅增加来自 AdaNP 的小额附加开销(研究中 CPU 上 1000 个样本约 6 毫秒)。
- 与基线 MLP 相比,ENFORCE 在数据稀缺区域提高了数据效率和准确性。
- AdaNP 深度在训练和推理阶段可自适应以满足给定容忍度,容忍度与数据情况下的深度约为 1 到最多 100 层。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。