QUICK REVIEW

[论文解读] Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding

Yuqi Yang, Yuxiao Guo|arXiv (Cornell University)|Apr 14, 2023

Robotics and Sensor-Based Localization被引用 34

一句话总结

Swin3D 引入了一个用于室内场景理解的预训练3D transformer 主干，具有内存高效的稀疏自注意力和上下文相对信号编码，在一个大型合成的 Structured3D 数据集上进行预训练，并在真实3D数据集上进行微调。

ABSTRACT

The use of pretrained backbones with fine-tuning has been successful for 2D vision and natural language processing tasks, showing advantages over task-specific networks. In this work, we introduce a pretrained 3D backbone, called {\SST}, for 3D indoor scene understanding. We design a 3D Swin transformer as our backbone network, which enables efficient self-attention on sparse voxels with linear memory complexity, making the backbone scalable to large models and datasets. We also introduce a generalized contextual relative positional embedding scheme to capture various irregularities of point signals for improved network performance. We pretrained a large {\SST} model on a synthetic Structured3D dataset, which is an order of magnitude larger than the ScanNet dataset. Our model pretrained on the synthetic dataset not only generalizes well to downstream segmentation and detection on real 3D point datasets, but also outperforms state-of-the-art methods on downstream tasks with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +1.8 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection, and +8.1 mAP@0.5 on S3DIS detection. A series of extensive ablation studies further validate the scalability, generality, and superior performance enabled by our approach. The code and models are available at https://github.com/microsoft/Swin3D .

研究动机与目标

激发在3D室内场景理解中对可扩展的预训练骨干网络的需求。
提出一个在稀疏体素上工作、具有线性内存复杂度的3D Swin transformer 主干（Swin3D）。
解决3D自注意力中的内存和信号不规则性挑战。
在大型合成数据 Structured3D 上对 Swin3D 进行预训练，并验证对下游任务的泛化能力。
微调后在3D分割和检测任务上展示卓越性能。

提出的方法

设计一个在稀疏体素上、采用局部窗口自注意力的3D Swin transformer 主干。
通过延迟 SoftMax 归一化来实现节省内存的自注意力，以降低二次内存开销。
将上下文相对位置编码推广为 Contextual Relative Signal Encoding (cRSE)，用于多信号（位置、颜色、法线）的编码。
使用一个5级分层稀疏体素网格进行多尺度特征编码。
在Structured3D上对Swin3D-S和Swin3D-L进行语义分割的预训练，然后在下游数据集上使用任务特定解码器进行微调。
在 ScanNet 和 S3DIS 上同时评估分割和检测，并与最先进方法进行比较。

实验结果

研究问题

RQ1在合成数据上训练的预训练3D骨干网络是否能推广到真实的3D室内场景理解任务？
RQ2节省内存的自注意力是否能够让更大规模的3D骨干网络实现可扩展训练？
RQ3广义的上下文相对信号编码在处理不规则点信号时对性能有何影响？
RQ4与从头训练相比，预训练的3D骨干网络在分割和检测任务中能带来哪些好处？
RQ5Swin3D 在多个基准测试（ScanNet、S3DIS）的分割和检测任务上表现如何？

主要发现

在 Structured3D 上对 Swin3D 进行预训练在下游任务上比最先进方法得到更优秀的性能。
在 S3DIS 的 Area5 和 6 倍分割中，Swin3D 的 mIoU 提升了 2.3 点。
在 S3DIS 分割（6 折）中，mIoU 提升了 2.2 点。
在 ScanNet 分割（验证）中，mIoU 提升了 1.8 点。
对于 ScanNet 检测，AP@0.5 提升了 1.9 点。
对于 S3DIS 检测，AP@0.5 提升了 8.1 点。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。