[论文解读] Searching for Efficient Multi-Scale Architectures for Dense Image Prediction
本论文将神经网络架构搜索应用于密集图像预测,提出 Dense Prediction Cells (DPCs) 并提出一种快速代理任务,以发现在 Cityscapes、PASCAL-Person-Part 和 PASCAL VOC 2012 上优于手工设计模型的架构。
The design of neural network architectures is an important component for achieving state-of-the-art performance with machine learning systems across a broad array of tasks. Much work has endeavored to design and build architectures automatically through clever construction of a search space paired with simple learning algorithms. Recent progress has demonstrated that such meta-learning methods may exceed scalable human-invented architectures on image classification tasks. An open question is the degree to which such methods may generalize to new domains. In this work we explore the construction of meta-learning techniques for dense image prediction focused on the tasks of scene parsing, person-part segmentation, and semantic image segmentation. Constructing viable search spaces in this domain is challenging because of the multi-scale representation of visual information and the necessity to operate on high resolution imagery. Based on a survey of techniques in dense image prediction, we construct a recursive search space and demonstrate that even with efficient random search, we can identify architectures that outperform human-invented architectures and achieve state-of-the-art performance on three dense prediction tasks including 82.7\% on Cityscapes (street scene parsing), 71.3\% on PASCAL-Person-Part (person-part segmentation), and 87.9\% on PASCAL VOC 2012 (semantic image segmentation). Additionally, the resulting architecture is more computationally efficient, requiring half the parameters and half the computational cost as previous state of the art systems.
研究动机与目标
- 推动自动化架构设计用于密集图像预测,超越图像分类。
- 构建一个可处理的搜索空间,以捕捉高分辨率图像的多尺度上下文。
- 开发一个快速代理任务,以在不进行大规模全训练的情况下评估候选架构。
- 证明在所提出的空间内进行随机搜索可以在多种密集预测任务中超越人类设计的架构。
提出的方法
- 将 Dense Prediction Cell (DPC) 定义为一个基于 DAG 的多分支模块,其通过连接分支输出形成多尺度上下文。
- 将每个分支输入指定为骨干网络的特征图或更早分支的输出,以实现递归的多尺度连接。
- 描述操作符选项,包括 1x1 卷积、具有不同速率的 3x3 空洞可分离卷积,以及具有不同网格大小的空间金字塔池化。
- 通过连接将分支输出聚合形成 DPC 输出,从而实现并行与级联的上下文聚合。
- 构建一个庞大但可处理的搜索空间:当 B=5 时,总配置近似为 B! × 81^B。
- 在给定评估预算下,使用黑箱优化方法(Vizier)与随机搜索来识别高性能的架构。
实验结果
研究问题
- RQ1元学习 / 神经架构搜索能否发现用于密集预测任务的紧凑且高性能的多尺度架构?
- RQ2经过精心设计的递归多尺度搜索空间(DPC)加上快速代理任务,是否能产生在场景标注及相关任务上超越人类设计模型的架构?
- RQ3在 Cityscapes、PASCAL-Person-Part 和 PASCAL VOC 2012 上,所发现的 DPC 架构在精度和效率方面与现有的最先进方法相比如何?
主要发现
- 对 Dense Prediction Cell 空间的随机搜索能够在三个密集预测任务上识别出超越人类设计基线的架构。
- 最佳 DPC 架构在 Cityscapes 测试集上达到 82.7% mIOU,领先之前的最先进方法 0.7 个百分点。
- 同一架构应用于 PASCAL-Person-Part 和 PASCAL VOC 2012,分别达到 71.34% 和 87.9% mIOU,超出之前的结果。
- 在使用强骨干网络(Xception)时,所学习的 DPC 相比以前的最先进系统大约需要一半的参数量和大约一半的乘加量(MAdds)。
- 使用较小骨干网络和缓存激活的设计代理任务与大规模性能相关(Spearman ρ 约为 0.47),从而实现高效的架构搜索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。