[论文解读] Multiresolution Tree Networks for 3D Point Cloud Processing
MRTNet 引入了多分辨率、树状结构网络,用于处理三维点云,实现高效、准确的形状分类和直接点云生成,在 ModelNet40 和 ShapeNet 任务上表现出色。
We present multiresolution tree-structured networks to process point clouds for 3D shape understanding and generation tasks. Our network represents a 3D shape as a set of locality-preserving 1D ordered list of points at multiple resolutions. This allows efficient feed-forward processing through 1D convolutions, coarse-to-fine analysis through a multi-grid architecture, and it leads to faster convergence and small memory footprint during training. The proposed tree-structured encoders can be used to classify shapes and outperform existing point-based architectures on shape classification benchmarks, while tree-structured decoders can be used for generating point clouds directly and they outperform existing approaches for image-to-shape inference tasks learned using the ShapeNet dataset. Our model also allows unsupervised learning of point-cloud based shapes by using a variational autoencoder, leading to higher-quality generated shapes.
研究动机与目标
- 开发一个多分辨率、树状结构的网络,直接处理三维点云,无需体素化或基于视图的代理。
- 通过编码器-解码器(以及变分自编码器)框架,实现准确的形状分类、图像到形状推断,以及无监督的形状学习。
- 通过三尺度、多网格架构保持局部性和可扩展性,在一维点排序中保留三维结构。
- 研究多分辨率处理在训练中快速收敛和降低内存占用方面的潜在好处。
提出的方法
- 将三维形状表示为在多分辨率下的局部性保持的一维有序点列,使用空间划分树(KD-tree 或 RP-tree)来实现。
- 用一维卷积处理该一维点序列,结合三尺度多网格 MR-CONV 块,通过上采样和池化在不同分辨率之间融合信息。
- 使用编码器生成潜在变量 z(512-D),用于诸如分类之类的任务;附加一个全连接层用于 ModelNet40 分类。
- 使用多分辨率解码器(MR-CONV-T 块)直接生成点云,允许以 Chamfer 距离为基础的损失。
- 可选地与预训练的图像编码器(VGG-11)结合用于图像到形状的推断,使用 Chamfer 距离作为重构损失进行训练。
- 扩展到无监督学习的 MR-VAE,其中编码器输出 z,解码器重构点云,并引入与高斯 N(0,I) 的矩矩匹配正则化。
实验结果
研究问题
- RQ1与单尺度点基模型相比,分辨率多、树状结构的点云表示是否能提高分类准确性?
- RQ2MRTNet 在不进行体素化或基于视图的合成的情况下,能多大程度地对点云进行编码/解码以实现直接的形状生成和图像到形状的推断?
- RQ3多分辨率架构是否在训练期间提高收敛速度和内存效率?
- RQ4通过 MR-VAE 的无监督学习能否产生对下游任务有用的高质量潜在形状表示?
- RQ5相对于先前的方法,MRTNet 在形状分割和跨域生成(如图像到3D)方面的表现如何?
主要发现
| 方法 | 准确度(ModelNet40) |
|---|---|
| MVCNN | 90.1 |
| MVCNN-MultiRes | 91.4 |
| KDNet (1K pts) | 90.6 |
| PointNet | 89.2 |
| PointNet++ (1K pts) | 90.7 |
| MRTNet (1K pts) | 91.2 |
| MRTNet (4K pts) | 91.7 |
| KDNet (32K pts) | 91.8 |
| PointNet++ (5K pts) | 91.9 |
| OctNet | 86.5 |
| O-CNN | 90.6 |
- 在使用 4K 点时,MRTNet 在 ModelNet40 上达到 91.7% 的准确度,超越了多种仅使用 XYZ 数据的点基方法。
- 使用 1K 点时,MRTNet 达到 91.2% 的准确度,超过基线单分辨率变体和许多先前的点基架构。
- 多分辨率解码器使直接点云生成成为可能,在 ShapeNet 上以 Chamfer 距离作为损失,相比若干竞争的图像到形状方法,生成的形状质量更高。
- 无监督 MR-VAE 训练在模型Net40 上使用 MR-VAE 编码器输出的特征进行下游分类时达到 86.4% 的准确度,表明学习到的表示很强。
- MR-Net 变体Compared with single-scale baselines, 展示出更快的收敛速度和更低的内存占用,同时在多项任务中保持或提高准确性。
- 定性结果显示 MRTNet 在生成的点云中保持连贯的空间结构,并且可以在潜在空间中插值形状。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。