QUICK REVIEW

[论文解读] Semantic Instance Annotation of Street Scenes by 3D to 2D Label Transfer

Jun Xie, Martin Kiefel|arXiv (Cornell University)|Nov 10, 2015

Advanced Vision and Imaging参考文献 43被引用 22

一句话总结

本文提出了一种3D到2D的标签迁移方法，利用立体或激光扫描的3D语义实例注释，为街景生成密集且时间上一致的2D语义实例标签。通过使用一种非局部多场CRF模型，联合推理3D点、2D像素和几何约束，该方法将标注时间减少了高达90%，同时提高了准确性，并实现了不确定性感知的半密集标注，最终从一个新型郊区视频数据集生成了40万张标注图像。

ABSTRACT

Semantic annotations are vital for training models for object recognition, semantic segmentation or scene understanding. Unfortunately, pixelwise annotation of images at very large scale is labor-intensive and only little labeled data is available, particularly at instance level and for street scenes. In this paper, we propose to tackle this problem by lifting the semantic instance labeling task from 2D into 3D. Given reconstructions from stereo or laser data, we annotate static 3D scene elements with rough bounding primitives and develop a model which transfers this information into the image domain. We leverage our method to obtain 2D labels for a novel suburban video dataset which we have collected, resulting in 400k semantic and instance image annotations. A comparison of our method to state-of-the-art label transfer baselines reveals that 3D information enables more efficient annotation while at the same time resulting in improved accuracy and time-coherent labels.

研究动机与目标

解决街景中大规模、实例级别的语义标注成本高昂且稀缺的问题。
通过利用几何和外观线索，将3D实例标签转移到2D图像，以减少标注时间并提高标签一致性。
通过从概率推理中估计标签置信度，实现不确定性感知的半密集标注。
创建并发布一个新型的大规模郊区视频数据集，包含40万张图像、10万次激光扫描和3D语义实例注释。
证明3D信息相比最先进的仅2D标签迁移方法，能够实现更准确、更高效的2D标注。

提出的方法

该方法首先在立体或激光数据生成的3D重建上，使用粗略的边界框原型对3D语义实例进行注释。
一种非局部多场CRF模型联合推理3D点、2D图像像素和几何约束，将标签从3D迁移至2D。
该CRF模型整合了投影3D点的外观特征、3D点之间的成对关系，以及来自3D原型的语义/实例约束。
该模型包含一个联合损失函数，支持端到端训练，并对语义和实例分割采用合理的优化方法。
通过标签边际分布的熵来估计不确定性，从而实现在高置信度区域的半密集推理。
该框架通过在视频帧之间将2D标签关联到单个3D对象，支持时间一致性。

实验结果

研究问题

RQ13D注释是否能显著减少街景中2D语义实例标注的时间和工作量？
RQ2与仅2D基线方法相比，引入3D几何推理是否能提高2D标签迁移的准确性和一致性？
RQ3该模型是否能通过每个对象仅一次3D注释，在视频序列中生成时间上一致的实例级标注？
RQ4从概率模型中估计的不确定性在多大程度上能通过半密集推理提高标注效率？
RQ53D原型约束和3D成对关系的整合在复杂场景中如何提升边界划分的精度？

主要发现

与手动2D标注相比，所提方法将标注时间减少了高达90%，即一个场景的3D标注仅需3小时，而2D标注则需200小时。
在仅预测最确定的90%像素时，该方法在半密集推理下实现了94.9%的Jaccard指数（JI）和97.4%的准确率。
消融研究显示，非局部多场CRF的每个组件——尤其是3D到2D对应关系——均对性能提升有贡献，其中联合3D-2D推理带来的提升最大。
该模型在语义和实例分割方面均优于最先进的2D标签迁移基线方法，实例分割结果与语义分割水平相当。
与仅2D的方法相比，该方法在处理复杂边界（如建筑物前的树木）时表现更优，但在低对比度或遮挡区域仍存在错误。
数据集发布包含40万张图像、10万次激光扫描和3D语义实例注释，为未来3D感知2D分割研究提供了支持。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。