QUICK REVIEW

[论文解读] FoldingNet: Point Cloud Auto-encoder via Deep Grid Deformation

Yaoqing Yang, Chen Feng|arXiv (Cornell University)|Dec 19, 2017

3D Shape Modeling and Analysis参考文献 13被引用 25

一句话总结

FoldingNet 提出了一种端到端的深度自编码器，用于点云的无监督表示学习，通过基于图的编码器和一种新颖的折叠式解码器，将二维网格变形为三维点云表面。该方法仅使用全连接解码器 7% 的参数量（100 万 vs. 1520 万），在 ModelNet40 上实现了 88.4% 的线性 SVM 分类准确率，展现出卓越的重建能力和判别性能，同时保持了局部几何结构。

ABSTRACT

Recent deep networks that directly handle points in a point set, e.g., PointNet, have been state-of-the-art for supervised learning tasks on point clouds such as classification and segmentation. In this work, a novel end-to-end deep auto-encoder is proposed to address unsupervised learning challenges on point clouds. On the encoder side, a graph-based enhancement is enforced to promote local structures on top of PointNet. Then, a novel folding-based decoder deforms a canonical 2D grid onto the underlying 3D object surface of a point cloud, achieving low reconstruction errors even for objects with delicate structures. The proposed decoder only uses about 7% parameters of a decoder with fully-connected neural networks, yet leads to a more discriminative representation that achieves higher linear SVM classification accuracy than the benchmark. In addition, the proposed decoder structure is shown, in theory, to be a generic architecture that is able to reconstruct an arbitrary point cloud from a 2D grid. Our code is available at http://www.merl.com/research/license#FoldingNet

研究动机与目标

为解决不规则三维点云缺乏二维图像规则结构的无监督表示学习挑战。
通过引入几何感知解码机制，克服体素化和全连接解码器在点云自编码器中的局限性。
设计一种参数高效的解码器，以保持局部结构，实现高质量重建和判别性特征学习。
证明可通过可学习的折叠操作，将二维网格用作重建任意三维点云表面的通用隐式结构。

提出的方法

编码器采用基于图的最大池化架构，以保留局部邻域结构，提升特征学习能力，超越标准 PointNet。
解码器采用基于折叠的操作，通过将学习到的码字与网格点特征拼接，并应用三层感知机，将规范的二维网格变形为三维物体表面。
每次折叠操作通过可学习的、可微的变换将二维网格映射为三维表面，两次此类操作按顺序执行以重建复杂形状。
折叠机制在三维表面上隐式强制实现二维流形结构，避免了对三维体素化或点的任意一维排序的需求。
模型在 ModelNet40 数据集上使用 Adam 优化器进行端到端训练，学习率为 0.0001，共训练 400 万次迭代。
将瓶颈层的码字用作下游线性 SVM 分类任务的嵌入表示，以评估表示质量。

实验结果

研究问题

RQ1能否通过可学习的折叠操作，将二维网格用作通用且参数高效的结构，以重建任意三维点云表面？
RQ2与全连接解码器相比，基于折叠的解码器在重建质量与参数效率方面表现如何？
RQ3FoldingNet 学习到的码字在多大程度上能实现下游分类任务的线性可分性？
RQ4与全局池化相比，基于图的编码器在点云扰动下是否更具鲁棒性？
RQ5当仅有少量标注数据可用时，该自编码器在无监督表示学习中的有效性如何？

主要发现

基于折叠的解码器相比全连接解码器，重建损失显著更低，且参数量仅为后者的 7%（100 万 vs. 1520 万）。
使用 FoldingNet 自编码器的码字在 ModelNet40 上的线性 SVM 分类准确率达到 88.4%，优于基线模型。
即使仅使用 1% 的标注训练数据（98 个样本），线性 SVM 的测试准确率仍超过 55%，表明学习到的码字具有很强的线性可分性。
当使用 20% 的训练数据时，分类准确率达到 85%，超过表 5 中列出的大多数现有方法。
如补充材料表 6 所示，二维网格点在重建中优于均匀随机的二维点。
如补充材料第 10 节所示，基于图的编码器在随机点位置扰动下比非图基替代方案更具鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。