[论文解读] Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++
Polygon-RNN++ 通过引入新型卷积神经网络编码器、强化学习训练以及图神经网络,提升了原始 Polygon-RNN 模型的性能,显著提高了输出分辨率。该方法在交互式模式下将标注时间减少 50%,在 Cityscapes 数据集上相比基线模型实现了 10% 的平均 IoU 提升,并在医学影像和航拍图像等分布外数据集上展现出强大的零样本泛化能力。
Manually labeling datasets with object masks is extremely time consuming. In this work, we follow the idea of Polygon-RNN to produce polygonal annotations of objects interactively using humans-in-the-loop. We introduce several important improvements to the model: 1) we design a new CNN encoder architecture, 2) show how to effectively train the model with Reinforcement Learning, and 3) significantly increase the output resolution using a Graph Neural Network, allowing the model to accurately annotate high-resolution objects in images. Extensive evaluation on the Cityscapes dataset shows that our model, which we refer to as Polygon-RNN++, significantly outperforms the original model in both automatic (10% absolute and 16% relative improvement in mean IoU) and interactive modes (requiring 50% fewer clicks by annotators). We further analyze the cross-domain scenario in which our model is trained on one dataset, and used out of the box on datasets from varying domains. The results show that Polygon-RNN++ exhibits powerful generalization capabilities, achieving significant improvements over existing pixel-wise methods. Using simple online fine-tuning we further achieve a high reduction in annotation time for new datasets, moving a step closer towards an interactive annotation tool to be used in practice.
研究动机与目标
- 通过基于多边形的预测实现更快、更交互式的标注,解决人工像素级实例分割的高时间成本问题。
- 克服原始 Polygon-RNN 模型在输出分辨率低和训练方式欠佳方面的局限,提升标注速度与精度。
- 在无需微调的情况下,实现对分布外数据集(如医学影像、航拍图像、场景解析)的强大零样本泛化能力,减少对再训练的需求。
- 通过集成在线微调和鲁棒的人机协同交互机制,开发出适用于现实世界标注的实用且可扩展的工具。
- 证明基于多边形的模型可通过学习边界感知表征,在多样化图像领域中实现优于像素级方法的泛化能力。
提出的方法
- 引入新型卷积神经网络编码器架构,以提升多边形预测的特征提取能力,增强模型容量与定位精度。
- 采用强化学习进行模型训练,引入一个可学习的评估网络,提供密集的、形状相关的反馈,以优化多边形顶点序列。
- 采用图神经网络(GGNN)将低分辨率多边形预测(28×28)上采样至高分辨率输出(112×112),从而实现对大尺寸物体的精确标注。
- 使用真实标注的边界框作为输入,引导模型为每个物体预测单一多边形,聚焦于最中心或最显著的实例。
- 应用简单的在线微调协议,利用少量标注数据将预训练模型快速适配至新数据集,实现在新领域中的快速部署。
- 设计交互式标注界面,用户可实时修正多边形顶点,模型根据反馈动态优化预测结果。
实验结果
研究问题
- RQ1在未进行微调的情况下,基于多边形的模型是否能在医学影像、航拍图像或场景解析图像等分布外数据集上实现有效泛化?
- RQ2与监督学习或标准强化学习基线相比,采用可学习评估器的强化学习能否显著提升多边形预测的质量与鲁棒性?
- RQ3通过图神经网络提升输出分辨率在多大程度上可减少块状效应,并提升对大尺寸物体的标注精度?
- RQ4在交互式模式下,该模型是否能将人类标注时间减少 50%,同时保持与真实标注的高 IoU 一致性?
- RQ5在线微调在加速新数据集标注方面有多高效?其性能在多样化领域中是否得以保持?
主要发现
- 在 Cityscapes 数据集上,Polygon-RNN++ 在自动模式下相比原始 Polygon-RNN 实现了 10% 的绝对提升和 16% 的相对提升,平均交并比(IoU)显著提高。
- 在交互式标注中,与原始 Polygon-RNN 相比,该模型将所需点击次数减少了 50%,显著加快了标注流程。
- 模型在分布外数据集上表现出有效的泛化能力:在未进行微调的情况下,其性能优于强大的像素级基线模型,在医学影像(Sunnybrook Cardiac MR)、航拍图像(Aerial)和场景解析(ADE20K)数据集上均表现优异。
- 在 ADE20K 数据集上,使用 Polygon-RNN++ 的人工标注者标注速度比传统方法快 3 倍,仅造成轻微的 IoU 一致性下降(75.9% 对比人工标注的 80.6%)。
- 通过在线微调,该模型在新数据集上实现了显著的标注加速,展现出强大的适应能力与在真实标注流程中的实际应用价值。
- 即使用户进行不精确的编辑,模型仍能保持高预测质量,表现出对噪声或次优人类修正的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。