[论文解读] Differentiable Linearized ADMM
本文提出可微分线性化交替方向乘子法(D-LADMM),一种受经典LADMM算法启发的可学习深度神经网络,通过使用可微分、可学习的激活函数替代固定的近端算子,并利用可训练权重优化线性约束。其主要贡献是在较弱条件下严格证明了D-LADMM实现线性收敛,实证结果表明其收敛速度更快,性能优于标准LADMM。
Recently, a number of learning-based optimization methods that combine data-driven architectures with the classical optimization algorithms have been proposed and explored, showing superior empirical performance in solving various ill-posed inverse problems, but there is still a scarcity of rigorous analysis about the convergence behaviors of learning-based optimization. In particular, most existing analyses are specific to unconstrained problems but cannot apply to the more general cases where some variables of interest are subject to certain constraints. In this paper, we propose Differentiable Linearized ADMM (D-LADMM) for solving the problems with linear constraints. Specifically, D-LADMM is a K-layer LADMM inspired deep neural network, which is obtained by firstly introducing some learnable weights in the classical Linearized ADMM algorithm and then generalizing the proximal operator to some learnable activation function. Notably, we rigorously prove that there exist a set of learnable parameters for D-LADMM to generate globally converged solutions, and we show that those desired parameters can be attained by training D-LADMM in a proper way. To the best of our knowledge, we are the first to provide the convergence analysis for the learning-based optimization method on constrained problems.
研究动机与目标
- 为解决基于学习的优化方法在约束优化问题中缺乏理论收敛性分析的问题。
- 开发一种可微分、基于深度学习的线性化ADMM(LADMM)算法变体,确保约束满足性与收敛性。
- 实现在优化层中端到端训练可学习参数的同时,保持经典LADMM的线性收敛速率。
- 证明D-LADMM在合成与真实世界反问题上均可实现比标准LADMM更快的收敛速度和更优的性能。
提出的方法
- 用可学习的神经网络结构替代经典LADMM中的固定近端算子,以支持反向传播与训练。
- 在约束项中引入可学习权重,替代固定的矩阵A和B,使参数可在训练过程中自适应调整。
- 将惩罚参数λ推广为可学习的逐元素参数,以在增广拉格朗日函数中实现方向自适应。
- 构建一个K层前馈网络,其中每一层对应一次LADMM更新,实现端到端优化。
- 利用增广拉格朗日法推导更新规则,采用可微分操作以支持通过各层的反向传播。
- 使用特定任务的损失函数(如NMSE或PSNR)进行网络训练,以学习最优参数,确保收敛性与性能。
实验结果
研究问题
- RQ1基于学习的优化方法在应用于约束优化问题时,能否保持线性收敛?
- RQ2如何使经典LADMM算法具备可微分性与可训练性,同时保持约束满足性?
- RQ3在所提出的D-LADMM框架中,可学习参数需满足何种条件,才能确保全局收敛与线性收敛速率?
- RQ4D-LADMM能否在真实世界反问题中实现比标准LADMM更快的收敛速度与更优的解质量?
主要发现
- 在较弱的技术条件下,D-LADMM实现了线性收敛,证明了存在可学习参数可确保全局收敛。
- 所提方法收敛速度显著快于标准LADMM,在迭代次数少两个数量级的情况下达到相当或更优的性能。
- 在图像去噪实验中,15层D-LADMM在150次迭代时PSNR已高于LADMM,而LADMM需1,500次迭代才能达到相同性能。
- 在10%椒盐噪声率下,15层D-LADMM达到30.1 dB的PSNR,优于LADMM在1,500次迭代时的表现。
- D-LADMM的训练时间为5–9分钟(10,000–20,000个样本),而LADMM需12–22分钟,表明尽管存在训练开销,D-LADMM整体效率更高。
- D-LADMM的复杂度为O((d₁ + d₂)mnKp),当Kp ≪ t时性能与LADMM相当,证实其计算优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。