[论文解读] Point Transformer
本文引入一个 Point Transformer 层,对3D点云应用局部向量自注意力,构建用于分类和密集预测的骨干网络,在 S3DIS、ModelNet40 和 ShapeNetPart 上取得最先进的结果。它强调可训练的位置编码和向量注意力在大规模3D理解中的可扩展性和准确性。
Self-attention networks have revolutionized natural language processing and are making impressive strides in image analysis tasks such as image classification and object detection. Inspired by this success, we investigate the application of self-attention networks to 3D point cloud processing. We design self-attention layers for point clouds and use these to construct self-attention networks for tasks such as semantic scene segmentation, object part segmentation, and object classification. Our Point Transformer design improves upon prior work across domains and tasks. For example, on the challenging S3DIS dataset for large-scale semantic scene segmentation, the Point Transformer attains an mIoU of 70.4% on Area 5, outperforming the strongest prior model by 3.3 absolute percentage points and crossing the 70% mIoU threshold for the first time.
研究动机与目标
- 在无序的3D点云中激发并改进自注意力的应用。
- 开发一个具有局部邻域向量自注意力的 Point Transformer 层。
- 仅使用自注意力和逐点运算构建用于分类和密集预测的骨干网络。
- 研究位置编码、邻域大小与注意力形式以优化性能。
- 在 S3DIS、ModelNet40 和 ShapeNetPart 上展示最先进的结果。
提出的方法
- 为每个点定义一个在 k 最近邻邻域上的局部向量自注意力算子。
- 在注意力路径和特征路径中引入可学习的位置编码 delta = theta(p_i - p_j)。
- 使用残差 Point Transformer 块作为核心构建单元。
- 以U-Net风格组装带有下采样/上采样转换模块的多阶段骨干网络用于分割,以及用于分类的全局池化路径。
- 在多样的3D基准数据集(S3DIS、ModelNet40、ShapeNetPart)上进行评估,并对 k、位置编码和注意力形式进行消融研究。
实验结果
研究问题
- RQ1在点云邻域上的局部向量自注意力是否能够在分类和分割任务中超越以往的3D点云方法?
- RQ2邻域大小、位置编码和注意力形式如何影响 Point Transformer 的性能?
- RQ3在大规模场景中,基于变换器的骨干网络并进行最少预处理,是否能与基于体素/图的3D网络一较高下?
主要发现
- 在S3DIS Area 5上达到70.4%的mIoU(Area 5),并在6折交叉验证下达到73.5%的mIoU,超过以往的最先进水平。
- 在ModelNet40上达到93.7%的总体准确率,在ShapeNetPart上达到86.6%的实例mIoU,超过若干基线。
- Point Transformers 的参数相对较少(4.9M),相比 KPConv(14.9M)和 SparseConv(30.1M)。
- 消融研究显示相对位置编码和向量注意力显著提升相对于基线以及绝对/无编码的性能。
- 向量注意力明显优于标量注意力和无注意力的变体,强调了通道级调制的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。