[论文解读] Multiscale Deep Equilibrium Models
MDEQ 引入一种浅层、隐式的多尺度平衡模型,它在多分辨率下求解同步平衡,从而在训练过程中实现常量内存下的 ImageNet 分类和 Cityscapes 分割的竞争性性能。
We propose a new class of implicit networks, the multiscale deep equilibrium model (MDEQ), suited to large-scale and highly hierarchical pattern recognition domains. An MDEQ directly solves for and backpropagates through the equilibrium points of multiple feature resolutions simultaneously, using implicit differentiation to avoid storing intermediate states (and thus requiring only $O(1)$ memory consumption). These simultaneously-learned multi-resolution features allow us to train a single model on a diverse set of tasks and loss functions, such as using a single MDEQ to perform both image classification and semantic segmentation. We illustrate the effectiveness of this approach on two large-scale vision tasks: ImageNet classification and semantic segmentation on high-resolution images from the Cityscapes dataset. In both settings, MDEQs are able to match or exceed the performance of recent competitive computer vision models: the first time such performance and scale have been achieved by an implicit deep learning approach. The code and pre-trained models are at https://github.com/locuslab/mdeq .
研究动机与目标
- 提出一种能够在不使用显式深度堆叠的情况下处理视觉中多尺度结构的模型类别。
- 开发一种隐式、单阶段的架构,在同一时间维持多分辨率的平衡。
- 通过在不同尺度设置辅助损失,实现多任务的联合训练(如分类与分割)。
- 展示隐式模型在大规模视觉任务中的可扩展性,同时实现高效的内存管理。
- 研究常见深度学习技术在 MDEQ 上的实际训练动力学和兼容性。
提出的方法
- 定义一个多尺度变换 f_theta,使并排保持若干分辨率,并将它们推向一个联合平衡。
- 仅在最高分辨率的流中注入输入 x,以在各尺度之间耦合流动。
- 使用固定点求解器(有限内存布鲁登方法)在所有尺度上找到平衡点 z*。
- 采用基于残差块的每尺度模块,配合分组归一化和跨分辨率混合特征的多尺度融合步骤。
- 通过雅可比-向量积(隐式微分)提供通过平衡的可微分反向传递。
- 允许在多个尺度设置辅助损失,以实现多任务训练和迁移(例如在 ImageNet 上进行预训练并在分割上进行微调)。
实验结果
研究问题
- RQ1放弃显式层堆叠的隐式模型是否能够在具有丰富多尺度结构的视觉任务中达到有竞争力的准确性?
- RQ2同时的多尺度平衡是否能够在单一模型中同时支持高层标签和密集预测?
- RQ3与显式架构相比,内存高效的隐式求解器在大规模视觉任务中的表现如何?
- RQ4为在高分辨率数据上稳定训练 MDEQs 需要哪些实际的改编(归一化、 dropout、初始化)?
- RQ5在一个任务上预训练的单一 MDEQ 模型在多大程度上可以通过在不同尺度的辅助损失迁移到相关任务?
主要发现
- MDEQ 在参数数量相近的情况下,在 ImageNet 分类任务上达到或超过具有竞争力的显式模型的性能。
- 在 Cityscapes 上,MDEQ 实现较高的 mIoU,较大的模型接近最先进的性能,同时内存使用比显式骨干网更少。
- 一个小型的 MDEQ(18M)在 ImageNet 和 CIFAR-10 上超过了若干同等规模的显式模型,说明了有效的多尺度隐式建模。
- 使用有限内存的布鲁登方法进行训练保持了内存效率,使在百万像素尺度的训练成为可行。
- MDEQ 展示了浅层隐式模型可以扩展到大型视觉任务并提供具有竞争力的精度,而不需要广泛的逐层深度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。