[论文解读] Segmenting Transparent Object in the Wild with Transformer
该论文提出 Trans10K-v2,这是一个具有 11 个类别的细粒度透明物体分割数据集,以及一个基于变换器的分割模型 Trans2Seg,在 Trans10K-v2 上达到最先进的结果并对 ADE20K 具有迁移能力。
This work presents a new fine-grained transparent object segmentation dataset, termed Trans10K-v2, extending Trans10K-v1, the first large-scale transparent object segmentation dataset. Unlike Trans10K-v1 that only has two limited categories, our new dataset has several appealing benefits. (1) It has 11 fine-grained categories of transparent objects, commonly occurring in the human domestic environment, making it more practical for real-world application. (2) Trans10K-v2 brings more challenges for the current advanced segmentation methods than its former version. Furthermore, a novel transformer-based segmentation pipeline termed Trans2Seg is proposed. Firstly, the transformer encoder of Trans2Seg provides the global receptive field in contrast to CNN's local receptive field, which shows excellent advantages over pure CNN architectures. Secondly, by formulating semantic segmentation as a problem of dictionary look-up, we design a set of learnable prototypes as the query of Trans2Seg's transformer decoder, where each prototype learns the statistics of one category in the whole dataset. We benchmark more than 20 recent semantic segmentation methods, demonstrating that Trans2Seg significantly outperforms all the CNN-based methods, showing the proposed algorithm's potential ability to solve transparent object segmentation.
研究动机与目标
- 在现实场景中为机器人和视觉系统的鲁棒分割高度透明对象提供动机。
- 提供一个大规模、多样化、细粒度的数据集(Trans10K-v2),具有高质量掩码和功能类别。
- 提出一个基于变换器的分割体系结构(Trans2Seg),利用全局上下文和可学习的类别原型来实现准确的掩码预测。
提出的方法
- 提出 Trans2Seg,这是一个 CNN 骨干网络+编码器-解码器 Transformer 架构。
- 使用 CNN 骨干网络(ResNet-50,最后阶段扩张)以提取特征并为 Transformer 编码器提供特征图。
- 采用一个 Transformer 解码器,使用一组可学习的类别原型作为查询来对编码器特征进行注意,以实现字典式的类别查找。
- 通过一个小型卷积头对解码器的注意力图进行上采样并与高分辨率 CNN 特征融合,以通过 argmax 进行最终逐像素分类。
- 为 Transformer 编码器引入位置嵌入,在展平特征图后恢复空间信息。
- 将 Transformer 编码器-解码器设计与 SETR 和 DETR 进行比较,强调类别原型查询作为语义分割的关键差异。
实验结果
研究问题
- RQ1变换器为基础的流水线能否在细粒度透明对象分割上优于基于 CNN 的方法?
- RQ2将分割建模为带有可学习类别原型的字典查找,是否能提升掩码质量和类别判别?
- RQ3Trans2Seg 在大规模、细粒度透明对象数据集以及通用分割基准如 ADE20K 上的表现如何?
主要发现
- Trans10K-v2 包含 10,428 张图像,11 个细粒度类别(货架、罐子、冷冻柜、窗户、玻璃门、眼镜、杯子、玻璃墙、玻璃碗、水瓶、储物箱)。
- Trans2Seg 在 Trans10K-v2 上显著优于基于 CNN 的方法,达到 72.15% mIoU 和 94.14% 像素精度(相较于上一代最先进 TransLab 的 69.00 mIoU)。
- Transformer 编码器提供比 CNN 更大的全局感受野,改善透明对象的分割。
- 用可学习类别原型作为查询的 Transformer 解码器替代 CNN 解码器,进一步提升 mIoU(在消融中最高达到 72.1%)。
- 在 ADE20K 上,Trans2Seg 达到 39.7 mIoU,证明了对通用分割任务的迁移能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。