Skip to main content
QUICK REVIEW

[论文解读] Iteratively Trained Interactive Segmentation

Sabarinath Mahadevan, Paul Voigtlaender|arXiv (Cornell University)|May 11, 2018
Advanced Neural Network Applications参考文献 26被引用 26
一句话总结

本文提出了一种新型的深度学习框架——迭代训练交互分割(Iteratively Trained Interactive Segmentation, ITIS),用于基于点击的图像分割。该方法采用迭代训练策略,在训练过程中模拟用户逐步纠正错误的行为。通过根据网络预测误差生成点击,ITIS在最先进的方法之上进一步提升了分割精度,在从零开始的交互式分割以及自动生成掩码的优化任务中均表现出优越性能。

ABSTRACT

Deep learning requires large amounts of training data to be effective. For the task of object segmentation, manually labeling data is very expensive, and hence interactive methods are needed. Following recent approaches, we develop an interactive object segmentation system which uses user input in the form of clicks as the input to a convolutional network. While previous methods use heuristic click sampling strategies to emulate user clicks during training, we propose a new iterative training strategy. During training, we iteratively add clicks based on the errors of the currently predicted segmentation. We show that our iterative training strategy together with additional improvements to the network architecture results in improved results over the state-of-the-art.

研究动机与目标

  • 通过支持交互式、基于点击的标注,降低训练深度学习模型进行图像分割的标注成本。
  • 通过在训练和推理阶段保持一致的点击采样策略,弥合交互式分割中训练与推理之间的领域差距。
  • 通过使用基于误差驱动的迭代点击生成方式而非启发式采样来训练网络,以提升分割性能。
  • 评估所提方法在测试时不同点击采样策略下的鲁棒性。
  • 系统性地比较不同输入表示形式(如点击、掩码)对网络性能的提升效果。

提出的方法

  • 该方法采用 DeepLabV3+ 主干网络,以图像和用户点击作为输入,预测分割掩码。
  • 在训练过程中,根据模型的预测误差逐步添加点击,模拟用户分步纠正错误的过程。
  • 点击以欧几里得距离图的形式表示,并与输入图像拼接,以引导网络。
  • 网络使用交叉熵损失进行端到端训练,并引入掩码通道以支持优化任务。
  • 在修正来自视频实例分割模型的已有分割掩码时,可选择性地使用掩码输入通道。
  • 迭代训练过程同时应用于训练和推理阶段,确保训练与测试行为的一致性。

实验结果

研究问题

  • RQ1一种模仿用户错误纠正行为的迭代训练策略是否能提升交互式分割性能?
  • RQ2在训练过程中使用基于误差驱动的点击生成方式,是否能比启发式点击采样带来更好的泛化性能?
  • RQ3所提方法在从零开始的交互式分割和掩码优化任务中,与当前最先进方法相比表现如何?
  • RQ4性能提升是由于对评估指标的过拟合,还是对点击采样策略的变化具有鲁棒性?
  • RQ5不同输入表示形式(如距离图、掩码通道)对分割精度有何影响?

主要发现

  • 迭代训练策略显著提升了 mIoU,在 PASCAL VOC 数据集上,20次点击时 mIoU 提升了 6.5%,优于先前方法。
  • 在 OSVOS 视频实例分割基准上,ITIS - VOS 在 10 次点击时达到 82.8% 的 mIoU,超过此前最先进方法的 82.2%。
  • 在 KITTI 汽车分割任务中,该方法表现更优,即使 Polygon-RNN 使用了真实边界框且需要更精确的点击。
  • 性能提升对测试时点击采样策略的变化具有鲁棒性,表明提升并非源于对评估标准的过拟合。
  • 消融实验表明,迭代训练带来的增益最大,在 PASCAL VOC 上相比非迭代基线模型 mIoU 提升了 3.8%。
  • 引入掩码输入通道在优化任务中显著提升了性能,尤其在点击数量较少时(如 4 次点击时 mIoU 达 67.0%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。