QUICK REVIEW

[论文解读] Spatially Adaptive Computation Time for Residual Networks

Michael Figurnov, Maxwell D. Collins|arXiv (Cornell University)|Dec 7, 2016

Visual Attention and Saliency Detection参考文献 39被引用 25

一句话总结

本文提出空间自适应计算时间（SACT），一种可动态调整残差网络中每个空间位置处理的残差块数量的方法，实现端到端、确定性且与任务无关的计算自适应。SACT在ImageNet和COCO上提升了FLOPs-mAP效率，其计算出的 ponder 成本图与人类眼动轨迹高度相关，且无需显式显著性监督。

ABSTRACT

This paper proposes a deep learning architecture based on Residual Network that dynamically adjusts the number of executed layers for the regions of the image. This architecture is end-to-end trainable, deterministic and problem-agnostic. It is therefore applicable without any modifications to a wide range of computer vision problems such as image classification, object detection and image segmentation. We present experimental results showing that this model improves the computational efficiency of Residual Networks on the challenging ImageNet classification and COCO object detection datasets. Additionally, we evaluate the computation time maps on the visual saliency dataset cat2000 and find that they correlate surprisingly well with human eye fixation positions.

研究动机与目标

开发一种方法，实现在深度残差网络中实现动态的空间可变计算，以提升效率。
创建一种端到端可训练、确定性的机制，实现对每个空间位置的计算自适应，且无需修改网络架构。
在多种视觉任务（包括图像分类和目标检测）上评估模型，无需针对特定任务进行微调。
评估计算出的计算时间图是否反映人类视觉注意力，即使在无显式监督的情况下。
证明自适应计算可改善最先进模型中的FLOPs-准确率权衡。

提出的方法

SACT将自适应计算时间（ACT）扩展至残差网络中的空间位置层级，实现对每个位置的计算停止决策。
对于每个空间位置，一个可学习的门控网络根据残差单元的输出判断特征表示是否‘足够好’以停止处理。
门控网络使用温度控制的Sigmoid函数生成停止概率，每个位置处理的残差单元数量由可微采样机制决定。
模型通过反向传播进行端到端训练，总计算时间（ponder成本）由超参数τ加权，以平衡准确率与效率。
该方法保持特征图对齐，适用于逐像素和多输出任务（如分割和目标检测）。
推理过程中生成ponder成本图，并直接用作显著性图，无需额外训练。

实验结果

研究问题

RQ1能否在残差网络中实现空间自适应计算，以提升计算效率？
RQ2即使无显式监督，空间自适应计算机制是否与人类视觉注意力相关？
RQ3SACT能否在图像分类和目标检测任务中改善FLOPs-准确率权衡？
RQ4与非自适应ResNet和ACT相比，SACT在mAP和FLOPs方面的表现如何？
RQ5计算出的ponder成本图能否在分布外图像上作为有效的视觉显著性预测器？

主要发现

当τ=0.005时，SACT在COCO验证集上达到27.61 mAP，仅使用ResNet-101 56.0%的FLOPs，性能优于原始ResNet-101（27.2 mAP），效率更高。
当τ=0.001时，SACT在72.4% FLOPs下达到29.04 mAP，显著优于非自适应ResNet-50（46.6% FLOPs下为25.56 mAP）。
在ImageNet和COCO上预训练的SACT模型在显著性预测任务上泛化良好，在cat2000数据集上达到84.6% AUC-Judd，优于中心基线（83.4%），与SOTA方法DeepFix（测试集87%）相当。
SACT生成的ponder成本图与人类眼动轨迹模式高度相关，表明模型学习到了一种生物上合理的注意力机制。
该方法保持了完整的特征图对齐，可直接用于密集预测任务（如目标检测和分割）。
模型完全可微分且端到端可训练，无需启发式或辅助网络来引导计算。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。