QUICK REVIEW

[论文解读] EmbedMask: Embedding Coupling for One-stage Instance Segmentation

Hui Ying, Zhaojin Huang|arXiv (Cornell University)|Dec 4, 2019

Advanced Neural Network Applications参考文献 33被引用 34

一句话总结

EmbedMask 将 proposal embeddings 与 pixel embeddings 融合在一个单阶段框架中，在不进行 RoI 池化的情况下执行高分辨率的实例分割，并在速度更快的同时实现与 Mask R-CNN 相当的结果。

ABSTRACT

Current instance segmentation methods can be categorized into segmentation-based methods that segment first then do clustering, and proposal-based methods that detect first then predict masks for each instance proposal using repooling. In this work, we propose a one-stage method, named EmbedMask, that unifies both methods by taking advantages of them. Like proposal-based methods, EmbedMask builds on top of detection models making it strong in detection capability. Meanwhile, EmbedMask applies extra embedding modules to generate embeddings for pixels and proposals, where pixel embeddings are guided by proposal embeddings if they belong to the same instance. Through this embedding coupling process, pixels are assigned to the mask of the proposal if their embeddings are similar. The pixel-level clustering enables EmbedMask to generate high-resolution masks without missing details from repooling, and the existence of proposal embedding simplifies and strengthens the clustering procedure to achieve high speed with higher performance than segmentation-based methods. Without any bells and whistles, EmbedMask achieves comparable performance as Mask R-CNN, which is the representative two-stage method, and can produce more detailed masks at a higher speed. Code is available at github.com/yinghdb/EmbedMask.

研究动机与目标

通过同时利用检测的强项和像素级嵌入进行聚类，缩小单阶段和两阶段实例分割之间的差距。
引入像素嵌入和 proposal 嵌入，以在不使用 RoI 池化的情况下实现基于嵌入的聚类。
学习每实例的边距（Sigma），以使聚类适应多尺度对象。
端到端训练，采用包含掩码相关监督的多任务损失。
说明单阶段方法在提升掩码细节和速度的同时，仍能在 COCO 上达到具有竞争力的性能。

提出的方法

主要以 FCOS 作为单阶段检测骨干网络构建。
增加一个 Pixel Head，用于从 FPN 的最大特征图预测逐像素嵌入 (p)。
增加一个 Proposal Head，用于预测每个 proposal 的嵌入 (q) 和一个 proposal 边距 (sigma)。
定义嵌入耦合：如果像素嵌入接近相应 proposal 的嵌入，则将该像素分配给该 proposal 的掩码；使用一个可学习的高斯样映射 phi 来获得掩码概率。
通过高斯核引入可学习的每实例边距 Sigma_k，以使分割边距适应多尺度对象。
定义一个平滑损失，在训练期间使 Q_k 与 Sigma_k 与平均的正样本对齐，以确保训练和推理的一致性。
优化多任务损失 L = L_cls + L_center + L_box + lambda1 L_mask + lambda2 L_smooth，其中 L_mask 指导像素- proposal 嵌入对齐及掩码概率，使用 Lovasz hinge 损失。

实验结果

研究问题

RQ1单阶段实例分割框架是否能在 COCO 上达到与像 Mask R-CNN 这类两阶段模型相当的性能？
RQ2结合嵌入耦合的像素嵌入和 proposal 嵌入是否在保持高速度的同时提供更高保真度的掩码？
RQ3与固定边距相比，可学习的每实例边距是否能改善多尺度对象掩码的聚类？
RQ4是否有利于为像素和 proposal 预测单独的嵌入，并利用它们的相似度来引导像素到实例的分配？
RQ5在保持细粒度掩码的同时避免 RoI 池化，是否能在不牺牲精度的前提下带来速度优势？

主要发现

EmbedMask 在相同训练设置下对 Mask R-CNN 取得具有竞争力的 COCO 结果（例如掩码 AP 相近，差距很小）。
单次拍摄方法通过避免 RoI 池化并从高分辨率像素嵌入直接预测掩码，产生更高细节的掩码。
可学习的每实例边距（Sigma）改善掩码性能并适应多尺度对象，优于固定边距配置。
将像素嵌入 p 与 proposal 嵌入 Q 通过基于高斯的掩码概率 phi 进行耦合，可提升像素到实例的分配和掩码质量。
该方法在多种配置下推理速度快于 Mask R-CNN，同时提供相当或更好的 AP（例如在 COCO 上，ResNet-101/50 主干时，13.7–16.7 fps 对比 8.7–8.6 fps）。
EmbedMask-600 在速度上以牺牲一些精度换取更快的推理，输入尺寸更小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。