[论文解读] Invertible Residual Networks
本文表明标准的 ResNets 通过对每个残差块施加 Lipschitz 约束来实现可逆(i-ResNets),从而一个架构即可进行分类和可控密度估计/生成。通过简单的训练归一化和定点逆,获得具有竞争力的判别性能和对流基生成建模的竞争力。
We show that standard ResNet architectures can be made invertible, allowing the same model to be used for classification, density estimation, and generation. Typically, enforcing invertibility requires partitioning dimensions or restricting network architectures. In contrast, our approach only requires adding a simple normalization step during training, already available in standard frameworks. Invertible ResNets define a generative model which can be trained by maximum likelihood on unlabeled data. To compute likelihoods, we introduce a tractable approximation to the Jacobian log-determinant of a residual block. Our empirical evaluation shows that invertible ResNets perform competitively with both state-of-the-art image classifiers and flow-based generative models, something that has not been previously achieved with a single architecture.
研究动机与目标
- 通过使 ResNets 可逆而不分割维度来实现判别与生成建模的桥接。
- 通过对残差块施加 Lipschitz 约束来保证可逆性。
- 为未标记数据启用基于似然的训练和可处理的密度估计。
- 展示有竞争力的图像分类性能和有竞争力的生成建模结果。
- 为在双任务中训练和使用 i-ResNets 提供实用指南。
提出的方法
- 将 ResNet 块视为 Lipschitz 约束的残差映射 Fθ = I + gθt,且对所有 t 有 Lip(gθt) < 1。
- 通过固定点迭代来求解 Fθ^{-1},利用 Banach 固定点定理实现稳定收敛。
- 通过对每个线性层进行谱归一化以确保 ||Wi||2 < 1(保守缩放系数 c < 1)来强制 Lipschitz 约束。
- 使用对数行列式的可处理幂级数近似来计算似然所需的 tr(log(I + Jg(x))),通过 Hutchinson 的迹估计和截断级数(k 项)。
- 提供一个前向传播算法(算法 2),它结合谱归一化、随机对数-行列式估计和固定点逆计算。
- 讨论与 Neural ODEs 及其他可逆架构的关系,并比较分析/逆属性在各模型之间的差异。
- 将 i-ResNets 训练为用于密度估计的正则化流;通过采样 z ~ pz 并应用逆 F^{-1} 来生成样本。
- 通过使用对数行列式幂级数近似来解决高维度扩展性问题,该近似随项数和层数增加而扩展。
![Figure 1 : Dynamics of a standard residual network (left) and invertible residual network (right). Both networks map the interval $[-2,2]$ to: 1) noisy $x^{3}$ -function at half depth and 2) noisy identity function at full depth. Invertible ResNets describe a bijective continuous dynamics while regu](https://ar5iv.labs.arxiv.org/html/1811.00995/assets/x1.png)
实验结果
研究问题
- RQ1是否可以在不分割维度或采用受限设计的情况下使标准 ResNet 架构可逆?
- RQ2是否通过强制 Lipschitz 约束实现稳定、可处理的密度估计与生成,同时保持具有竞争力的判别性能?
- RQ3i-ResNet 与其他可逆架构(NICE、i-RevNet、Real-NVP、Glow、FFJORD)在分类与生成任务中的比较?
- RQ4哪些实用指南(例如谱归一化系数、幂级数项数)能够带来可靠的逆计算和准确的对数行列式估计?
主要发现
- 通过对 Lip(g) < 1 施加谱归一化且不显著损害在 MNIST、CIFAR-10 和 CIFAR-100 上的分类精度,i-ResNets 可被实现为可逆。
- i-ResNet 块的逆可以通过固定点迭代计算,利用 Banach 的固定点定理实现稳定恢复。
- 与标准 ResNet 相比,i-ResNets 提供有竞争力的判别性能,在 CIFAR-10 分类任务上还优于若干 Glow 变体。
- 作为生成模型,i-ResNets 展现出与 Glow 和 FFJORD 相竞争的密度估计和样本质量,性能差距部分归因于对数行列式估计的偏差和优化挑战。
- 提出的对数行列式近似(通过截断的幂级数和 Hutchinson 迹估计)可扩展到更高维,并为 i-ResNet 流提供可处理的似然计算。
- 表格比较表明 i-ResNets 在 MNIST 和 CIFAR-10 上达到有竞争力的每维比特数(例如 MNIST 的 i-ResNet 约 1.06 比特/维,相较 FFJORD 的 0.99;CIFAR-10 约 3.45 比特/维)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。