QUICK REVIEW

[论文解读] Conditional Convolutions for Instance Segmentation

Zhi Tian, Chunhua Shen|arXiv (Cornell University)|Mar 12, 2020

Advanced Neural Network Applications参考文献 44被引用 26

一句话总结

该论文提出CondInst，一种新型实例分割框架，用基于条件的、实例感知的卷积网络替代传统的基于ROI的掩码头。通过根据每个实例的特征和位置动态生成卷积核权重，CondInst在不使用更长训练周期的情况下，实现了SOTA精度和更快的推理速度，相比Mask R-CNN提升1.2 AP点（35.9% vs. 35.5%）。

ABSTRACT

We propose a simple yet effective instance segmentation framework, termed CondInst (conditional convolutions for instance segmentation). Top-performing instance segmentation methods such as Mask R-CNN rely on ROI operations (typically ROIPool or ROIAlign) to obtain the final instance masks. In contrast, we propose to solve instance segmentation from a new perspective. Instead of using instance-wise ROIs as inputs to a network of fixed weights, we employ dynamic instance-aware networks, conditioned on instances. CondInst enjoys two advantages: 1) Instance segmentation is solved by a fully convolutional network, eliminating the need for ROI cropping and feature alignment. 2) Due to the much improved capacity of dynamically-generated conditional convolutions, the mask head can be very compact (e.g., 3 conv. layers, each having only 8 channels), leading to significantly faster inference. We demonstrate a simpler instance segmentation method that can achieve improved performance in both accuracy and inference speed. On the COCO dataset, we outperform a few recent methods including well-tuned Mask RCNN baselines, without longer training schedules needed. Code is available: https://github.com/aim-uofa/adet

研究动机与目标

为解决Mask R-CNN等基于ROI的实例分割方法依赖裁剪和对齐操作的局限性。
通过消除ROI池化和特征对齐的需求，实现完全卷积的实例分割。
通过实例特定的、动态生成的卷积核滤波器，提升掩码头的效率与性能。
在精度与推理速度上超越现有方法，包括经过充分调优的Mask R-CNN基线模型。
证明紧凑的掩码头结合条件卷积可超越更大、固定权重的掩码头。

提出的方法

提出一种完全卷积的实例分割框架，采用实例感知的掩码头，动态生成卷积核权重。
使用控制器子网络，基于实例的中心区域和相对坐标生成掩码头卷积核。
引入条件卷积，其中卷积核权重按实例动态生成，实现实例特定的特征学习。
在特征图中添加相对坐标，提供空间归纳偏置，提升定位能力，无需ROI裁剪。
通过直接在完整特征图上应用动态掩码头，消除ROIAlign和ROI池化操作。
采用轻量级掩码头，仅包含3层卷积，每层8个通道，显著减少参数量与计算量。

实验结果

研究问题

RQ1一个具有实例感知、动态滤波器的完全卷积网络能否在实例分割中超越基于ROI的方法？
RQ2一个采用动态生成滤波器的紧凑掩码头能否在精度上超越更大、固定权重的掩码头？
RQ3消除ROI操作是否能在不损失掩码质量的前提下提升推理速度？
RQ4条件卷积能否在无需ROI裁剪的情况下，有效区分外观相似的实例（如多个行人）？
RQ5所提方法能否在精度与速度上均超越Mask R-CNN和TensorMask等SOTA模型？

主要发现

CondInst在COCO test-dev上达到35.9% AP，优于经过充分调优的Mask R-CNN基线（35.5%），且无需更长训练周期。
在3×训练周期和ResNet-101主干网络下，CondInst达到40.1% AP，超越Mask R-CNN（38.8%）和TensorMask（37.1%）。
CondInst的推理速度约为TensorMask的8倍（每张图49 ms vs. 380 ms），同时性能更好或相当。
该方法以极小的掩码头（3层卷积，每层8通道）实现SOTA性能，显著降低计算成本。
引入辅助语义分割头可将CondInst性能提升至38.8% AP（ResNet-50）和40.1% AP（ResNet-101），且推理时间无增加。
基于掩码预测的NMS与基于框的NMS性能完全一致，证实CondInst可完全消除对框检测的依赖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。