QUICK REVIEW

[论文解读] Microsoft COCO: Common Objects in Context

Lin, Tsung-Yi, Maire, Michael|arXiv (Cornell University)|May 1, 2014

Advanced Neural Network Applications参考文献 40被引用 2,228

一句话总结

本文介绍了 Microsoft COCO 数据集，这是一个大规模、实例级标注的基准数据集，用于复杂日常场景中的物体识别。它通过新型 AMT 界面众包获取的每实例分割掩码，实现了精确的 2D 定位，并利用可变形部件模型建立了新的最先进基线，显著推动了场景理解的发展，超越了典型视图和孤立物体的限制。

ABSTRACT

RU-AI dataset is constructed based on three large publicly available datasets: Flickr8K, COCO, and Places205, by adding their corresponding machine-generated pairs.

研究动机与目标

解决现有数据集在识别真实场景中非典型、遮挡和杂乱物体实例方面的局限性。
通过强调物体之间的上下文关系和精确的空间定位，推进场景理解。
通过使用 Amazon Mechanical Turk 的新型用户界面，开发可扩展的高质量标注流程，用于类别标注、实例定位和分割。
创建一个包含丰富每实例分割掩码的数据集，以实现细粒度定位，并提升对真实世界视觉复杂性的泛化能力。
建立一个物体检测和实例分割的基准，其在实例密度和上下文丰富度方面优于 PASCAL VOC 和 ImageNet 等先前数据集。

提出的方法

使用基于场景和物体对的 Flickr 查询收集图像，优先选择非典型、上下文丰富的场景。
采用分层多阶段标注流程：(1) 非典型图像过滤，(2) 通过拖拽图标配对进行类别标注，(3) 通过放大功能进行实例定位，(4) 使用支持缩放的改进版 OpenSurfaces 代码进行每实例分割。
实施验证阶段：三位标注员评估分割质量；若任一标注员将掩码标记为质量差，则由另外两人重新评估，仅保留获得 ≥4/5 赞同票的掩码。
对类别实例数超过 10 个的图像采用众包标注（像素绘制）以提高效率，避免冗余的手动多边形绘制。
应用对应关系解析策略，通过忽略已被现有掩码覆盖的实例，避免重叠或重复分割。
设计专用的 AMT 界面，加入视觉提示（如类别图标、放大镜）以提高对小尺寸或模糊物体标注的准确性和效率。

实验结果

研究问题

RQ1如何构建一个大规模数据集，以支持在复杂真实场景中对非标准视角物体实例进行精确的实例级定位？
RQ2每张图像中较高的实例密度（平均 7.7 个）与每张图像实例较少的数据集相比，对训练鲁棒物体检测器有何影响？
RQ3与边界框或语义分割相比，每实例分割标注如何提升检测与定位性能？
RQ4物体之间的上下文推理在提升杂乱真实场景中识别准确率方面起到什么作用？
RQ5如何通过人类计算在最小误差和冗余的前提下，实现可扩展的高质量标注？

主要发现

COCO 包含 2,500,000 个标注实例，分布在 328,000 张图像中，其中 80 个类别（共 91 个类别）的实例被标注了分割掩码。
该数据集平均每张图像包含 7.7 个实例，显著高于 PASCAL VOC（2.3）和 ImageNet（3.0），增强了上下文学习的潜力。
COCO 中的图像主要为非典型图像，80% 的物体实例不在侧视或中心无遮挡的视角，真实反映了现实世界的视觉复杂性。
使用可变形部件模型的基线结果在实例分割上的平均精度达到 34.7%，证明了该数据集的挑战性和实用性。
通过五名标注员投票验证分割质量，相比单一名标注员基线，差质量掩码减少了 40%，显著提升了最终标注质量。
对于类别实例超过十个的图像，采用众包标注（像素绘制）高效完成，减少了标注时间，同时保持了准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。