QUICK REVIEW

[论文解读] Pixel-wise Attentional Gating for Parsimonious Pixel Labeling

Shu Kong, Charless C. Fowlkes|arXiv (Cornell University)|May 3, 2018

CCD and CMOS Imaging Sensors参考文献 47被引用 35

一句话总结

本文提出像素级注意力门控（PAG），一种通用的、可微分机制，可学习在深度卷积神经网络中动态分配空间位置的计算量，用于像素级标注任务。通过使用Gumbel-Softmax采样训练稀疏的、逐像素的二值掩码，PAG实现了自适应推理——在仅造成最小精度下降的情况下将FLOPs减少高达30%——同时通过动态池化和选择性特征处理提升了语义分割、深度估计和表面法线预测等任务的性能。

ABSTRACT

To achieve parsimonious inference in per-pixel labeling tasks with a limited computational budget, we propose a \emph{Pixel-wise Attentional Gating} unit (\emph{PAG}) that learns to selectively process a subset of spatial locations at each layer of a deep convolutional network. PAG is a generic, architecture-independent, problem-agnostic mechanism that can be readily "plugged in" to an existing model with fine-tuning. We utilize PAG in two ways: 1) learning spatially varying pooling fields that improve model performance without the extra computation cost associated with multi-scale pooling, and 2) learning a dynamic computation policy for each pixel to decrease total computation while maintaining accuracy. We extensively evaluate PAG on a variety of per-pixel labeling tasks, including semantic segmentation, boundary detection, monocular depth and surface normal estimation. We demonstrate that PAG allows competitive or state-of-the-art performance on these tasks. Our experiments show that PAG learns dynamic spatial allocation of computation over the input image which provides better performance trade-offs compared to related approaches (e.g., truncating deep models or dynamically skipping whole layers). Generally, we observe PAG can reduce computation by $10\%$ without noticeable loss in accuracy and performance degrades gracefully when imposing stronger computational constraints.

研究动机与目标

解决深度卷积神经网络在边缘和移动设备部署像素级标注任务时计算成本过高的问题。
通过学习每个像素的空间可变计算分配，实现自适应推理，而非对所有位置进行统一处理。
开发一种通用的、与模型架构和任务无关的机制，可通过微调轻松集成到现有模型中。
通过学习动态池化区域和选择性计算路径，在不增加计算开销的前提下改善性能权衡。
证明在语义分割和深度估计等细粒度预测任务中，像素级的动态计算分配具有优势。

提出的方法

提出像素级注意力门控（PAG），一种可微分机制，利用Gumbel-Softmax技巧生成每个空间位置的稀疏二值掩码，支持端到端训练。
在残差网络的多个层中插入PAG单元，以学习动态、输入相关的计算路径，使得每层仅处理选定的空间位置。
使用稀疏性超参数控制每层平均激活的空间位置数量，从而显式控制计算预算。
利用PAG动态选择每个像素的池化感受野大小，将固定或多尺度池化替换为可学习的自适应聚合机制。
采用分阶段训练策略训练带有PAG的MultiPool模块，其中注意力图约束信息流并改善特征融合。
使用标准的任务特定损失函数（如交叉熵、L1损失）进行模型训练，无需强化学习，仅依赖与FLOPs相关的简单稀疏性目标。

实验结果

研究问题

RQ1在像素级实现动态、空间可变的计算分配，是否能在不增加计算成本的前提下提升像素标注任务的性能？
RQ2通过仅选择性处理有信息量的空间位置进行学习，是否能相比固定深度或层跳过策略，实现更好的精度-计算权衡？
RQ3PAG能否有效学习每个像素的自适应池化感受野大小，以在计算效率高的前提下改善感受野建模？
RQ4PAG在语义分割、边界检测、单目深度估计和表面法线估计等多种像素标注任务中表现如何？
RQ5在PAG的自适应推理机制下，计算量（FLOPs）最多可减少多少，同时仍能保持具有竞争力的性能？

主要发现

PAG在各类任务上平均仅造成3%–5%的性能下降，总FLOPs减少高达30%，证明在计算约束下具有良好的降级特性。
在Cityscapes和Stanford-2D-3D数据集上，使用MultiPool的PAG在语义分割和表面法线估计任务中性能优于基线模型，并超越了当前最先进方法。
PAG增强的MultiPool模块在准确性和鲁棒性方面均优于加权平均融合基线（MP@Res5 w-Avg.），尤其在大视角图像上表现更优。
在表面法线估计任务中，模型在Stanford-2D-3D数据集上达到16.5°的平均角度误差，在NYUv2数据集上为21.7°，优于Eigen [12]和Wang [53]等方法，且无需多任务学习或大规模数据增强。
定性分析表明，PAG注意力图能将计算集中在显著区域，如物体边界、深度不连续区域和法线不连续区域，证实了其有效的动态分配能力。
该模型在单目深度估计任务中表现强劲，且无需额外训练图像（与依赖约10万张额外图像的方法不同），在更简单的训练设置下仍取得具有竞争力的结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。