[论文解读] Imposing Hard Constraints on Deep Networks: Promises and Limitations
本文展示了可以通过 Krylov 子空间方法对深度网络施加硬约束以求解大规模受约束优化问题,但使用 Adam 的软约束在实践中表现更好且更实用。
Imposing constraints on the output of a Deep Neural Net is one way to improve the quality of its predictions while loosening the requirements for labeled training data. Such constraints are usually imposed as soft constraints by adding new terms to the loss function that is minimized during training. An alternative is to impose them as hard constraints, which has a number of theoretical benefits but has not been explored so far due to the perceived intractability of the problem. In this paper, we show that imposing hard constraints can in fact be done in a computationally feasible way and delivers reasonable results. However, the theoretical benefits do not materialize and the resulting technique is no better than existing ones relying on soft constraints. We analyze the reasons for this and hope to spur other researchers into proposing better solutions.
研究动机与目标
- 激励对深度网络输出进行约束,以融入领域知识,而不仅仅依赖带标签数据。
- 构建深度网络的硬约束优化,并与软约束损失进行对比。
- 开发可扩展的数值策略以处理数百万参数和大规模约束集合。
- 评估硬约束在深度学习中的实际表现与限制,相对于软约束。
提出的方法
- 将硬约束 C_j(w) = 0 施加在网络输出上,并将问题表述为 min_w R(w) 使 C_j(w)=0。
- 应用 KKT 条件推导用于更新 w 和拉格朗日乘子的一阶线性化系统。
- 使用 Krylov 子空间方法(MINRES-QLP)在不显式形成 B 的情况下求解大型线性系统。
- 利用 Pearlmutter 的 R-op 和 L-op 计算雅可比-向量积,以实现高效的矩阵-向量乘积。
- 引入随机主动约束以管理极大约束集合,并用受限的 Adam 来进行更新扩展。
- 可选实现约束挖掘,在每次迭代中选择最违反的约束。
实验结果
研究问题
- RQ1大规模下能否在深度网络输出上可行地施加硬约束?
- RQ2硬约束在深度学习中是否在理论或经验上优于软约束?
- RQ3哪些数值策略能够求解来自 KKT 条件的大规模、潜在病态的线性系统?
- RQ4随机约束选择和受限优化在深度网络中的实际交互如何?
主要发现
- 硬约束在 Krylov 子空间方法和 MINRES-QLP 下是计算可行的,尽管比软约束慢。
- 在所测试的设置中,使用 Adam 的软约束通常能获得更好预测性能和更稳定的训练。
- 硬约束并不能保证对约束的完美满足,即使在训练数据上也不例,因为每次迭代对活跃约束进行子集选取。
- 本工作中,基于 Adam 的受限更新显示出比基于投影的硬约束更新更好的收敛性。
- 约束线性化可能条件数差或略有不兼容,增加优化难度,解释了硬约束的困难。
- 一个合成示例表明软约束在稳定性和对约束的满足方面通常优于硬约束。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。