[论文解读] i-RevNet: Deep Invertible Networks
本文提出 i-RevNet,一种完全可逆的深度网络,直到最终分类层都保留信息,与非可逆架构在 ImageNet 上的性能相当,同时能够从隐藏表示中实现对输入的精确重构。
It is widely believed that the success of deep convolutional networks is based on progressively discarding uninformative variability about the input with respect to the problem at hand. This is supported empirically by the difficulty of recovering images from their hidden representations, in most commonly used network architectures. In this paper we show via a one-to-one mapping that this loss of information is not a necessary condition to learn representations that generalize well on complicated problems, such as ImageNet. Via a cascade of homeomorphic layers, we build the i-RevNet, a network that can be fully inverted up to the final projection onto the classes, i.e. no information is discarded. Building an invertible architecture is difficult, for one, because the local inversion is ill-conditioned, we overcome this by providing an explicit inverse. An analysis of i-RevNets learned representations suggests an alternative explanation for the success of deep networks by a progressive contraction and linear separation with depth. To shed light on the nature of the model learned by the i-RevNet we reconstruct linear interpolations between natural image representations.
研究动机与目标
- 探讨在像 ImageNet 这样的大规模问题上,深度表示是否需要信息丢失以实现泛化。
- 提出一个可逆的卷积神经网络架构,避免在最终分类层之前丢弃信息。
- 展示精确的逆映射并分析学习到的表征在收缩和类别分离方面的表现。
- 在 ImageNet 上将性能与非可逆的 RevNet 和 ResNet 基线进行比较。
- 通过在特征空间中的重构和插值,为表征的几何结构提供洞见。
提出的方法
- 将 i-RevNet 介绍为一系列可逆(同胚)层的级联,用可逆层替换 RevNet 的不可逆组件。
- 使用分割算子创建两个交错路径,以及可逆下采样模块 S_j,以用通道宽度换取空间分辨率。
- 推导显式的前向与逆映射(x_{j+1} = S_{j+1} x̃_j; x̃_{j+1} = x_j + F_j x̃_j),并讨论左逆和逆构造。
- 训练两个模型:一个是可注入的 i-RevNet (a),另一个是双射的 i-RevNet (b),其层数或参数数量与 RevNet/ResNet 基线相当。
- 在 ImageNet 上使用标准的 SGD 训练进行评估,比较 Top-1 准确率和参数数量与 ResNet 和 RevNet 基线。
实验结果
研究问题
- RQ1一个可逆的卷积神经网络是否能够在保持与 ImageNet 相当的准确度的同时,将所有输入信息保存到最终分类层?
- RQ2在深度增加的同时,可逆结构在收缩与线性可分性方面如何影响学习到的表征?
- RQ3逆映射揭示了中间表示的结构以及从隐藏特征重构输入的可行性?
- RQ4线性投影(如 PCA)是否能在可逆网络的特征空间中有效捕捉判别子空间?
主要发现
| 架构 | 注入性 | 双射 | Top-1 错误 | 参数 |
|---|---|---|---|---|
| ResNet | - | - | 24.7 | 26M |
| RevNet | - | - | 25.2 | 28M |
| i-RevNet (a) | 是 | - | 24.7 | 181M |
| i-RevNet (b) | 是 | 是 | 26.7 | 29M |
- i-RevNets 可以在最终分类层之前实现完全可逆,直到最后一层都保留输入信息。
- 训练了两个模型:一个可注入的 i-RevNet (a) 和一个双射的 i-RevNet (b),在各自基线中取得了具有竞争力的结果。
- 在 ImageNet 上,i-RevNet (a) 与 RevNet/ResNet 的 Top-1 性能相近,但网络显著更宽(181M 参数)。
- i-RevNet (b) 为双射,参数数量与基线大致相同,但相比 RevNet 基线,Top-1 准确率下降约 1.5 个百分点。
- 逆映射 Φ^{-1} 在重构方面数值稳定,在 ImageNet 上的相对反演误差约为 3–5e-6,尽管局部逆不良条件。
- 在逐步加深的特征上训练的线性分类器(如线性 SVM)显示出随深度增加的分离性和收缩性提升,表明存在低维的判别子空间(例如,大约 200 个主成分即可接近满分准确率)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。