[论文解读] Fully Convolutional Instance-aware Semantic Segmentation
本文提出了FCIS,这是首个用于实例感知语义分割的全卷积端到端框架,通过位置敏感得分图联合检测并分割物体实例,实现跨区域的共享、平移不变表示。该方法在COCO 2016分割竞赛中以37.6%的mAP r @[0.5:0.95]获得第一名,性能达到最先进水平,且推理速度比先前方法(如MNC)快6倍。
We present the first fully convolutional end-to-end solution for instance-aware semantic segmentation task. It inherits all the merits of FCNs for semantic segmentation and instance mask proposal. It performs instance mask prediction and classification jointly. The underlying convolutional representation is fully shared between the two sub-tasks, as well as between all regions of interest. The proposed network is highly integrated and achieves state-of-the-art performance in both accuracy and efficiency. It wins the COCO 2016 segmentation competition by a large margin. Code would be released at \url{https://github.com/daijifeng001/TA-FCN}.
研究动机与目标
- 开发一种端到端、全卷积的实例感知语义分割框架,避免基于区域的全连接子网络带来的效率低下问题。
- 通过引入位置敏感得分图实现平移可变表示,以解决传统FCN在处理实例级语义时的局限性。
- 通过统一的、参数高效的架构联合检测与分割物体实例,无需特征扭曲或重采样。
- 在准确率和推理速度上超越现有方法,尤其在大尺寸物体和高分辨率图像上表现更优。
提出的方法
- 该方法使用位置敏感的内部与外部得分图来编码感兴趣区域内的相对空间位置,实现平移可变特征,同时保持全卷积结构。
- 所有感兴趣区域共享相同的底层卷积特征图,从而无需ROI池化或特征重采样。
- 通过这些得分图,在单次前向传播中联合完成检测与分割任务,且无需为该任务增加额外参数。
- 采用RPN(区域建议网络)生成区域建议,而非滑动窗口,从而实现高效的多尺度推理。
- 该方法支持多尺度训练与测试,以及水平翻转增强,且不会增加每个ROI的计算成本。
- 通过在位置敏感得分图上投票实现掩码预测,从而在无需全连接层的情况下实现精确、密集的预测。
实验结果
研究问题
- RQ1能否设计一种全卷积网络,实现端到端的实例感知语义分割,而无需依赖区域特定的全连接层?
- RQ2如何在全卷积框架中引入平移可变特征,以在共享区域特征的同时区分不同物体实例?
- RQ3能否以参数高效的方式表述检测与分割的联合任务,避免特征扭曲并保持空间分辨率?
- RQ4与SOTA的两阶段方法(如MNC)相比,该方法在准确率与速度上的提升程度如何?
- RQ5该方法在网络深度以及数据增强策略(如多尺度推理与集成学习)下的可扩展性如何?
主要发现
- FCIS在COCO 2016测试开发集上达到37.6%的mAP r @[0.5:0.95],在实例分割挑战中排名第一。
- 相比2015年冠军方法(MNC+++)提升了9.2个百分点的mAP r @[0.5:0.95],相对提升达32%。
- 在使用ResNet-101时,FCIS达到29.2%的mAP r @[0.5:0.95],比MNC在相同设置下的25.0%高出4.2个百分点。
- 在单张K40 GPU上,每张图像的推理时间为0.24秒,比MNC的1.4秒快6倍。
- 该方法显著受益于OHEM(在线难例挖掘),由于每个ROI的计算成本极低,训练开销极小,即可达到29.2%的mAP。
- 准确率随网络深度增加而提升,使用ResNet-152时达到峰值29.5%的mAP,表明其具有良好的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。