[论文解读] Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Auto-DeepLab 引入分层神经架构搜索,联合优化语义分割的网络级和单元级结构,在没有 ImageNet 预训练的情况下实现出色结果,且搜索高效(约3个GPU日)。
Recently, Neural Architecture Search (NAS) has successfully identified neural network architectures that exceed human designed ones on large-scale image classification. In this paper, we study NAS for semantic image segmentation. Existing works often focus on searching the repeatable cell structure, while hand-designing the outer network structure that controls the spatial resolution changes. This choice simplifies the search space, but becomes increasingly problematic for dense image prediction which exhibits a lot more network level architectural variations. Therefore, we propose to search the network level structure in addition to the cell level structure, which forms a hierarchical architecture search space. We present a network level search space that includes many popular designs, and develop a formulation that allows efficient gradient-based architecture search (3 P100 GPU days on Cityscapes images). We demonstrate the effectiveness of the proposed method on the challenging Cityscapes, PASCAL VOC 2012, and ADE20K datasets. Auto-DeepLab, our architecture searched specifically for semantic image segmentation, attains state-of-the-art performance without any ImageNet pretraining.
研究动机与目标
- 将神经架构搜索从图像分类扩展到密集语义分割。
- 提出一个包含网络级和单元级架构的两级分层搜索空间。
- 开发一个可微、基于梯度的 NAS 框架,以高效搜索该层次结构。
- 在没有 ImageNet 预训练的情况下展示强大的分割性能,并与最先进基线进行比较。
提出的方法
- 定义一个两级分层搜索空间:用于空间分辨率变化的网络级trellis,以及描述层操作的单元级DAG。
- 使用对体系结构的可微连续松弛,单元级操作用α表示,网络级转移用β表示。
- 使用基于梯度的更新,在分割的训练数据(trainA/trainB)上交替优化架构参数和网络权重。
- 对离散架构进行解码:对单元使用贪心解码(选择顶层前驱和argmax操作),对网络路径使用Viterbi解码。
- 在搜索过程中对每个分辨率附加一个Atrous Spatial Pyramid Pooling(ASPP)模块,采用简化的多分支设置。
- 从头开始在 Cityscapes 上训练,使用 321x321 的裁剪,并在 Cityscapes、PASCAL VOC 2012 和 ADE20K 上进行评估。
实验结果
研究问题
- RQ1神经架构搜索是否能够有效扩展到像语义分割这样的密集图像预测任务?
- RQ2联立搜索网络级和单元级架构是否比仅搜索单元更能带来性能提升?
- RQ3针对高分辨率的密集预测任务,可微NAS的效率到底有多高?
- RQ4在 Cityscapes、VOC 2012 和 ADE20K 上,Auto-DeepLab 的变体在无 ImageNet 预训练时的表现如何?
主要发现
- 在没有 ImageNet 预训练的情况下,Auto-DeepLab-L 在 Cityscapes 测试集上的性能显著优于 FRRN-B 8.6%、优于 GridNet 10.9%。
- Auto-DeepLab 的表现与 DeepLabv3+(带预训练)相当,同时在 Multi-Adds 方面快了 2.23 倍。
- 轻量级的 Auto-DeepLab-S 在 Cityscapes 测试达到 80.9%,参数显著更少(10.15M),Multi-Adds 为 333.25B。
- Auto-DeepLab-L 在 Cityscapes 测试(粗略标注)达到 82.1%,Multi-Adds 比 DeepLabv3+ 少 55.2%;在没有预训练的情况下,最佳模型在 Cityscapes 上超过若干基线。
- 在 PASCAL VOC 2012 和 ADE20K 上,最佳 Auto-DeepLab 变体优于若干使用有限预训练的最先进模型;VOC 测试在 ImageNet/COCO 预训练变体下达到最高 85.6% 的 mIOU。
- 所提出的可微两级 NAS 相比以往的密集预测 NAS 方法(如 DPC)大约快 1000 倍,并找到在多个数据集上具备泛化性的架构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。