[论文解读] PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies
本文在现代训练与扩展策略下重新评估 PointNet++,并引入 PointNeXt,在若干 3D 任务上展示了最先进的结果。
PointNet++ is one of the most influential neural architectures for point cloud understanding. Although the accuracy of PointNet++ has been largely surpassed by recent networks such as PointMLP and Point Transformer, we find that a large portion of the performance gain is due to improved training strategies, i.e. data augmentation and optimization techniques, and increased model sizes rather than architectural innovations. Thus, the full potential of PointNet++ has yet to be explored. In this work, we revisit the classical PointNet++ through a systematic study of model training and scaling strategies, and offer two major contributions. First, we propose a set of improved training strategies that significantly improve PointNet++ performance. For example, we show that, without any change in architecture, the overall accuracy (OA) of PointNet++ on ScanObjectNN object classification can be raised from 77.9% to 86.1%, even outperforming state-of-the-art PointMLP. Second, we introduce an inverted residual bottleneck design and separable MLPs into PointNet++ to enable efficient and effective model scaling and propose PointNeXt, the next version of PointNets. PointNeXt can be flexibly scaled up and outperforms state-of-the-art methods on both 3D classification and segmentation tasks. For classification, PointNeXt reaches an overall accuracy of 87.7 on ScanObjectNN, surpassing PointMLP by 2.3%, while being 10x faster in inference. For semantic segmentation, PointNeXt establishes a new state-of-the-art performance with 74.9% mean IoU on S3DIS (6-fold cross-validation), being superior to the recent Point Transformer. The code and models are available at https://github.com/guochengqian/pointnext.
研究动机与目标
- 系统地研究 PointNet++ 的训练与扩展策略,以挖掘网络的全部潜力。
- 证明仅通过改进训练就能显著提升 PointNet++ 在基准测试上的表现。
- 提出架构与扩展的改进,以创建 PointNeXt,用于可扩展、高效的 3D 点云理解。
- 展示 PointNeXt 在分类与分割任务中实现优越的准确性与速度。
提出的方法
- 对 PointNet++ 进行系统性的数据增强和优化技术评估,以识别有效的训练改进。
- 引入相对位置归一化以稳定并加速训练。
- 通过 InvResMLP 块的残差连接和可分离的 MLP 实现架构现代化,以实现高效的扩展。
- 包含干预式宏架构变更,包括 stem MLP、对称解码器,以及修订的编码器深度,以实现可扩展的 PointNeXt 变体。
- 定义 PointNeXt 家族(S、B、L、XL),并通过受控的宽度和深度缩放参数来实现。
实验结果
研究问题
- RQ1现代训练策略(数据增强和优化)是否可以在不改变架构的情况下恢复并超越 PointNet++ 的性能?
- RQ2如何有效且高效地扩展 PointNet++,以与最先进的点云网络竞争?
- RQ3哪些架构变更(归一化、残差连接、可分离的 MLP)最能提升性能与可扩展性?
- RQ4所提出的训练与架构修改是否在分类和分割基准上转化为性能提升?
- RQ5不同的 PointNeXt 配置在不同任务上的准确性与推理速度表现如何?
主要发现
- 仅通过改进训练策略,PointNet++ 在 ScanObjectNN 的 OA 从 77.9% 提升到 86.1%,超过了若干 SOTA 方法。
- 在 S3DIS 分割(6 次折叠)中,训练改进将平均 IoU 从 54.5% 提升到 68.1%,超越了若干后续架构。
- PointNeXt-S/B/L/XL 取得显著提升,例如 PointNeXt-XL 在 S3DIS 6 折达到 74.9% 的 mIoU,在 ScanObjectNN 上达到 90.3% 的 OA,同时比一些基线更快。
- PointNeXt-L 的 mIoU 可超越最先进的 Point Transformer,同时保持更快的推理速度;PointNeXt-XL 在所研究的变体中提供了最佳报告结果。
- 在 ScanObjectNN 的对象分类中,PointNeXt-S 获得 87.7% 的 OA,优于 PointMLP,并在推理上快 10 倍。
- 使用 PointNeXt-S(C=64)的 ShapeNetPart 结果在 ins. mIoU 和 cls. mIoU 上达到具有竞争力甚至优越的水平,并且吞吐量显著提升;极大宽度(C=160)可达到 87.0% 的 ins. mIoU。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。