[论文解读] TensorMask: A Foundation for Dense Object Segmentation
TensorMask 引入一个密集滑动窗口框架用于实例分割,使用结构化4D张量,在结果上与 Mask R-CNN 具有竞争力,并为密集掩码预测提供新的基础。
Sliding-window object detectors that generate bounding-box object predictions over a dense, regular grid have advanced rapidly and proven popular. In contrast, modern instance segmentation approaches are dominated by methods that first detect object bounding boxes, and then crop and segment these regions, as popularized by Mask R-CNN. In this work, we investigate the paradigm of dense sliding-window instance segmentation, which is surprisingly under-explored. Our core observation is that this task is fundamentally different than other dense prediction tasks such as semantic segmentation or bounding-box object detection, as the output at every spatial location is itself a geometric structure with its own spatial dimensions. To formalize this, we treat dense instance segmentation as a prediction task over 4D tensors and present a general framework called TensorMask that explicitly captures this geometry and enables novel operators on 4D tensors. We demonstrate that the tensor view leads to large gains over baselines that ignore this structure, and leads to results comparable to Mask R-CNN. These promising results suggest that TensorMask can serve as a foundation for novel advances in dense mask prediction and a more complete understanding of the task. Code will be made available.
研究动机与目标
- 通过将掩码视为具有几何结构的4D张量来弥合密集滑动窗口实例分割中的差距。
- 开发并评估 TensorMask 的表示与算子,以实现密集掩码预测。
- 证明密集滑动窗口方法在 COCO 上的性能可以与基于区域的方法相竞争。
提出的方法
- 用结构化的4D张量(形状为 (V, U, H, W))来表示掩码,以捕捉对象位置和掩码几何。
- 提出自然且对齐的张量表示,以及它们之间的坐标变换。
- 引入张量双金字塔以处理多尺度掩码,将大型对象的高分辨率掩码与小型对象的粗粒定位结合起来。
- 在特征金字塔网络上附加一个掩码预测头和一个分类头,且各层共享权重。
- 使用与类别无关的掩码头和基于焦点损失的分类头,训练时采用掩码特定的逐像素二元交叉熵损失以及用于回归的类似 IoU 的框回归损失。
- 评估各种张量表示(自然 vs 对齐)和上采样策略,最终形成的张量双金字塔优于基线头。
实验结果
研究问题
- RQ1密集滑动窗口实例分割是否能通过将掩码表示为具有4D张量来有效实现?
- RQ2尊重掩码几何结构的表示(自然 vs 对齐)是否比无结构方法带来改进?
- RQ3张量双金字塔是否能够在不产生过高计算成本的情况下实现跨尺度的高质量掩码?
- RQ4与 Mask R-CNN 相比,TensorMask 在 COCO 的掩码 AP 和框 AP 的性能如何?
主要发现
| 方法 | 骨干网络 | 增强 | 训练轮次 | AP | AP 50 | AP 75 | AP S | AP M | AP L |
|---|---|---|---|---|---|---|---|---|---|
| Mask R-CNN [13] | R-50-FPN | 24 | 34.9 | 57.2 | 36.9 | 15.4 | 36.6 | 50.8 | |
| Mask R-CNN, ours | R-50-FPN | 24 | 34.9 | 56.8 | 36.8 | 15.1 | 36.7 | 50.6 | |
| Mask R-CNN, ours | R-50-FPN | ✓ | 72 | 36.8 | 59.2 | 39.3 | 17.1 | 38.7 | 52.1 |
| TensorMask | R-50-FPN | ✓ | 72 | 35.4 | 57.2 | 37.3 | 16.3 | 36.8 | 49.3 |
| Mask R-CNN, ours | R-101-FPN | ✓ | 72 | 38.3 | 61.2 | 40.8 | 18.2 | 40.6 | 54.1 |
| TensorMask | R-101-FPN | ✓ | 72 | 37.1 | 59.3 | 39.4 | 17.4 | 39.1 | 51.6 |
- 在使用特征金字塔的基线头上,结合张量双金字塔的 TensorMask 显著提升掩码 AP,达到 34.0 的 AP,使用 15x15 的掩码,较最佳基线(TensorMask 与特征金字塔)提高最多 5.1 AP。
- 对齐表示的上采样带来巨大收益,尤其在大 λ 时,例如在 λ=5 时对齐头的表现比自然头高出多达 9.2 AP。
- 张量双金字塔在特征金字塔上的最佳基线头之上带来约 5.1 AP 的显著提升,并为大型对象提供更高质量的掩码(AP L 提升 7.7)。
- 采用两个窗口尺寸(15x15 和 11x11)的张量双金字塔提供额外增益(约 1.2 AP)。
- 与 Mask R-CNN 相比,使用 ResNet-50/101-FPN 的 TensorMask 及训练计划在 COCO test-dev 上表现具有竞争力,特定掩码和框 AP 与强基线相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。