Skip to main content
QUICK REVIEW

[论文解读] AISFormer: Amodal Instance Segmentation with Transformer

Minh Trần, Khoa Vo|arXiv (Cornell University)|Oct 12, 2022
Domain Adaptation and Few-Shot Learning被引用 23
一句话总结

AISFormer 引入基于 Transformer 的掩码头用于全尺度实例分割,将遮挡者、可见、全尺度与不可见掩码作为可学习查询,以捕捉 ROIs 内跨掩码的一致性。它在 KINS、D2SA、COCOA-cls 数据集上实现了最先进的 AIS 性能。

ABSTRACT

Amodal Instance Segmentation (AIS) aims to segment the region of both visible and possible occluded parts of an object instance. While Mask R-CNN-based AIS approaches have shown promising results, they are unable to model high-level features coherence due to the limited receptive field. The most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer explicitly models the complex coherence between occluder, visible, amodal, and invisible masks within an object's regions of interest by treating them as learnable queries. Specifically, AISFormer contains four modules: (i) feature encoding: extract ROI and learn both short-range and long-range visual features. (ii) mask transformer decoding: generate the occluder, visible, and amodal mask query embeddings by a transformer decoder (iii) invisible mask embedding: model the coherence between the amodal and visible masks, and (iv) mask predicting: estimate output masks including occluder, visible, amodal and invisible. We conduct extensive experiments and ablation studies on three challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the effectiveness of AISFormer. The code is available at: https://github.com/UARK-AICV/AISFormer

研究动机与目标

  • 解决 AIS 中的遮挡挑战,超越传统的 Mask R-CNN 风格方法
  • 利用 Transformer 的掩码头对 ROI 内掩码组件之间的长程一致性进行建模
  • 提出四模块的 AISFormer,用于编码特征、解码掩码查询、嵌入不可见掩码、并预测四种掩码类型
  • 在三个基准数据集(KINS、D2SA、COCOA-cls)上展示出色的 AIS 性能,并提供消融分析以验证设计选择

提出的方法

  • 特征编码:使用骨干网络和 ROIAlign 提取 ROI 特征,将特征上采样到更高分辨率,并应用 Transformer 编码器在 ROI 内捕捉长程依存关系
  • 掩码 Transformer 解码:使用 Transformer 解码器生成三个可学习的掩码查询嵌入,分别对应遮挡者、可见和全尺度掩码,在查询之间进行自注意力并与编码的 ROI 特征进行交叉注意力
  • 不可见掩码嵌入:通过将可见掩码和全尺度掩码的查询级联输入到多层感知机(MLP)来产生不可见掩码嵌入,以建模全尺度与可见掩码之间的一致性
  • 掩码预测:计算每像素的 ROI 嵌入并与查询嵌入进行混合,通过点积融合方式预测四种掩码——遮挡者、可见、全尺度和不可见
  • 优化:端到端训练,使用交叉熵损失对四种掩码的预测进行监督

实验结果

研究问题

  • RQ1一个基于 Transformer 的掩码头是否能够有效建模 ROI 内遮挡者、可见、全尺度和不可见掩码之间的一致性
  • RQ2为遮挡者、可见和全尺度掩码设计的可学习查询是否比形状先验和非 Transformer 基线有更好的 AIS 性能
  • RQ3不可见掩码嵌入如何帮助捕捉可见与全尺度掩码之间的关系
  • RQ4AISFormer 是否在多个不同骨干的 AIS 基准数据集(KINS、D2SA、COCOA-cls)上都有效
  • RQ5哪些消融实验能揭示每种查询类型和不可见嵌入的必要性

主要发现

模型骨干网络发表场所形状先验APAP50AP75AR
AISFormerResNet-5033.857.835.321.1
AISFormerResNet-10134.658.236.721.9
AISFormerRegNet35.659.937.022.5
  • 使用基于 Transformer 的掩码头的 AISFormer 在 KINS、D2SA 和 COCOA-cls 数据集上相对于多种最先进方法实现了更优的 AIS 性能
  • 在不同骨干(ResNet-50、ResNet-101、RegNet)下,AISFormer 始终提升全尺度分割的 AP 与 AR 指标
  • 消融结果显示逐步加入遮挡者、可见和不可见查询嵌入可提升性能,包含不可见嵌入的完整 AISFormer 取得最佳结果
  • 在 ResNet-50 的 KINS 上,AISFormer 相较形状先验与非形状先验基线提升了数个 AP 百分点;在 RegNet 骨干下,达到对比中的最佳 AP/AR 值
  • 在 D2SA 与 COCOA-cls 上,AISFormer 仍具竞争力,甚至在无形状先验的方法中领先,凸显在没有强先验条件下对四种掩码类型建模的优势

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。