QUICK REVIEW

[论文解读] Semantic Understanding of Scenes through the ADE20K Dataset

Bolei Zhou, Hang Zhao|arXiv (Cornell University)|Aug 18, 2016

Advanced Neural Network Applications参考文献 34被引用 190

一句话总结

引入了 ADE20K 稠密注释数据集，提供像素级标签用于场景、对象和部件，并给出场景解析与实例分割的基线，以及对批量归一化效应的分析。

ABSTRACT

Scene parsing, or recognizing and segmenting objects and stuff in an image, is one of the key problems in computer vision. Despite the community's efforts in data collection, there are still few image datasets covering a wide range of scenes and object categories with dense and detailed annotations for scene parsing. In this paper, we introduce and analyze the ADE20K dataset, spanning diverse annotations of scenes, objects, parts of objects, and in some cases even parts of parts. A generic network design called Cascade Segmentation Module is then proposed to enable the segmentation networks to parse a scene into stuff, objects, and object parts in a cascade. We evaluate the proposed module integrated within two existing semantic segmentation networks, yielding significant improvements for scene parsing. We further show that the scene parsing networks trained on ADE20K can be applied to a wide variety of scenes and objects.

研究动机与目标

创建一个覆盖多样场景、对象及对象部件的大型、稠密注释图像数据集，采用开放词汇命名。
提供基于 ADE20K 的像素级场景解析和实例分割基准。
评估基线分割模型并重新实现前沿方法以实现开源可访问性。
分析同步批量归一化以及其他训练设定对分割性能的影响。
探索对象与部件注释的联合训练，并讨论其在分层场景理解中的潜在应用。

提出的方法

由单名专家注释员对 20,210 张训练图、2,000 张验证图和 3,000 张测试图进行密集对象、部件和属性标签的注释。
基于 ADE20K 构建 SceneParse150（像素级场景解析）与 InstSeg100（实例分割）基准。
在 PyTorch 中重新实现并发布用于场景解析的开源基线（包括 DilatedResNet 变体、PSPNet、UPerNet），并在 SceneParse150 上评估。
试验批量归一化设置（同步、非同步、冻结 BN）及批量大小，以评估对分割精度的影响。
在 InstSeg100 上使用带 FPN-50 主干的 Mask R-CNN 进行实例分割训练，并分析多尺度训练的影响。

实验结果

研究问题

RQ1ADE20K 的稠密注释如何促成更广泛的场景理解，包括对象部件及部件的部件？
RQ2在 SceneParse150 上像素级场景解析的有效基线架构与训练设置有哪些？
RQ3同步批量归一化如何影响 ADE20K 的分割性能？
RQ4使用 Mask R-CNN 在 InstSeg100 上的基线实例分割性能是多少，多尺度训练如何影响它？
RQ5从对象-部件关系中可获得哪些有助于场景理解和知识库关联的见解？

主要发现

SceneParse150 的基线显示 DilatedVGG 和 DilatedResNet 变体的平均 IoU 高于 FCN/SegNet，级联版本带来进一步提升。
在 PyTorch 中重新实现的前沿模型（如 PSPNet、UPerNet）相比简单基线平均 IoU 提高了 3-7 个百分点，凸显上下文信息的重要性。
批量大小为 16 的同步 BN 相较于较小或非同步 BN 设置可获得更高的像素精度和平均 IoU，BN 大小约为 4 是一个实际的拐点。
InstSeg100 的结果表明 Mask R-CNN 的多尺度训练显著提升平均 mAP（例如整体从 0.1832 提高到 0.2241），但小对象仍然具有挑战性。
ADE20K 的稠密注释显示大多数图像包含多个对象（平均约 19.5 个实例，约 10.5 个类别），且超过 76% 的对象实例具有部件（平均每对象约 3 个部件）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。