Skip to main content
QUICK REVIEW

[论文解读] Conditional Convolutions for Instance Segmentation

Zhi Tian, Chunhua Shen|arXiv (Cornell University)|Mar 12, 2020
Advanced Neural Network Applications参考文献 44被引用 26
一句话总结

该论文提出CondInst,一种新型实例分割框架,用基于条件的、实例感知的卷积网络替代传统的基于ROI的掩码头。通过根据每个实例的特征和位置动态生成卷积核权重,CondInst在不使用更长训练周期的情况下,实现了SOTA精度和更快的推理速度,相比Mask R-CNN提升1.2 AP点(35.9% vs. 35.5%)。

ABSTRACT

We propose a simple yet effective instance segmentation framework, termed CondInst (conditional convolutions for instance segmentation). Top-performing instance segmentation methods such as Mask R-CNN rely on ROI operations (typically ROIPool or ROIAlign) to obtain the final instance masks. In contrast, we propose to solve instance segmentation from a new perspective. Instead of using instance-wise ROIs as inputs to a network of fixed weights, we employ dynamic instance-aware networks, conditioned on instances. CondInst enjoys two advantages: 1) Instance segmentation is solved by a fully convolutional network, eliminating the need for ROI cropping and feature alignment. 2) Due to the much improved capacity of dynamically-generated conditional convolutions, the mask head can be very compact (e.g., 3 conv. layers, each having only 8 channels), leading to significantly faster inference. We demonstrate a simpler instance segmentation method that can achieve improved performance in both accuracy and inference speed. On the COCO dataset, we outperform a few recent methods including well-tuned Mask RCNN baselines, without longer training schedules needed. Code is available: https://github.com/aim-uofa/adet

研究动机与目标

  • 为解决Mask R-CNN等基于ROI的实例分割方法依赖裁剪和对齐操作的局限性。
  • 通过消除ROI池化和特征对齐的需求,实现完全卷积的实例分割。
  • 通过实例特定的、动态生成的卷积核滤波器,提升掩码头的效率与性能。
  • 在精度与推理速度上超越现有方法,包括经过充分调优的Mask R-CNN基线模型。
  • 证明紧凑的掩码头结合条件卷积可超越更大、固定权重的掩码头。

提出的方法

  • 提出一种完全卷积的实例分割框架,采用实例感知的掩码头,动态生成卷积核权重。
  • 使用控制器子网络,基于实例的中心区域和相对坐标生成掩码头卷积核。
  • 引入条件卷积,其中卷积核权重按实例动态生成,实现实例特定的特征学习。
  • 在特征图中添加相对坐标,提供空间归纳偏置,提升定位能力,无需ROI裁剪。
  • 通过直接在完整特征图上应用动态掩码头,消除ROIAlign和ROI池化操作。
  • 采用轻量级掩码头,仅包含3层卷积,每层8个通道,显著减少参数量与计算量。

实验结果

研究问题

  • RQ1一个具有实例感知、动态滤波器的完全卷积网络能否在实例分割中超越基于ROI的方法?
  • RQ2一个采用动态生成滤波器的紧凑掩码头能否在精度上超越更大、固定权重的掩码头?
  • RQ3消除ROI操作是否能在不损失掩码质量的前提下提升推理速度?
  • RQ4条件卷积能否在无需ROI裁剪的情况下,有效区分外观相似的实例(如多个行人)?
  • RQ5所提方法能否在精度与速度上均超越Mask R-CNN和TensorMask等SOTA模型?

主要发现

  • CondInst在COCO test-dev上达到35.9% AP,优于经过充分调优的Mask R-CNN基线(35.5%),且无需更长训练周期。
  • 在3×训练周期和ResNet-101主干网络下,CondInst达到40.1% AP,超越Mask R-CNN(38.8%)和TensorMask(37.1%)。
  • CondInst的推理速度约为TensorMask的8倍(每张图49 ms vs. 380 ms),同时性能更好或相当。
  • 该方法以极小的掩码头(3层卷积,每层8通道)实现SOTA性能,显著降低计算成本。
  • 引入辅助语义分割头可将CondInst性能提升至38.8% AP(ResNet-50)和40.1% AP(ResNet-101),且推理时间无增加。
  • 基于掩码预测的NMS与基于框的NMS性能完全一致,证实CondInst可完全消除对框检测的依赖。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。