Skip to main content
QUICK REVIEW

[论文解读] Generative and Discriminative Voxel Modeling with Convolutional Neural Networks

Andrew Brock, Theodore Lim|arXiv (Cornell University)|Aug 15, 2016
3D Shape Modeling and Analysis参考文献 13被引用 450
一句话总结

论文提出基于体素的变分自编码器用于3D形状,以及基于体素的深度卷积网络用于分类,在ModelNet基准上取得显著改进,并提供用于潜在空间探索的图形用户界面。

ABSTRACT

When working with three-dimensional data, choice of representation is key. We explore voxel-based models, and present evidence for the viability of voxellated representations in applications including shape modeling and object classification. Our key contributions are methods for training voxel-based variational autoencoders, a user interface for exploring the latent space learned by the autoencoder, and a deep convolutional neural network architecture for object classification. We address challenges unique to voxel-based representations, and empirically evaluate our models on the ModelNet benchmark, where we demonstrate a 51.5% relative improvement in the state of the art for object classification.

研究动机与目标

  • 激励并验证基于体素的3D数据表示在生成与判别任务中的有效性。
  • 开发基于体素的变分自编码器以学习潜在形状因素并实现插值。
  • 构建深度体素CNN(Voxception 与 Voxception-ResNet),在ModelNet36/40数据集上实现高性能3D对象分类。
  • 提供用于探索潜在空间和进行实时推理的用户界面。
  • 展示在ModelNet40和ModelNet10基准上的最先进或具竞争力的性能。

提出的方法

  • 使用3x3x3卷积和潜在层的编码器/解码器架构训练基于体素的变分自编码器,并采用为体素占用调整的专用BCE损失。
  • 结合KL散度项和L2正则化以及改为的二元交叉熵损失,以缓解体素网格中的类别不平衡。
  • 在VAE中通过步幅卷积进行下采样、通过分数步长卷积进行上采样,配合批量归一化和Glorot初始化。
  • 开发用于分类的基于体素的卷积神经网络:Voxception和Voxception-ResNet结构,具备Inception风格模块、残差连接和随机深度。
  • 使用大规模数据增强(平移、翻转、旋转)和旋转平均集成进行训练;在ModelNet40/ModelNet10基准上评估。
  • 提供用于潜在空间探索和实时推理的图形用户界面。

实验结果

研究问题

  • RQ1基于体素的表示是否能够通过VAEs实现对3D形状的高保真生成建模?
  • RQ2深层体素卷积网络是否能够在ModelNet基准上达到最先进的分类,而无需多视图方法?
  • RQ3数据增强与架构深度如何影响基于体素的3D分类的性能?
  • RQ4基于体素的VAE生成的插值和样本的质量如何,潜在空间是否能够解耦结构变异?
  • RQ5相对于多视图或其他3D表示,基于体素的方法在性能和实用性上是否具备可扩展性?

主要发现

预测阳性阴性
实际阳性99.39%0.61%
实际阴性7.64%92.36%
  • VAE在ModelNet10上的重建精度:99.39%的真阳性和92.36%的真阴性,存在一定的高估趋势。
  • 最佳单一VRN模型在ModelNet40上达到91.33%,ModelNet10上93.61%;集成达到95.54%(ModelNet40)和97.14%(ModelNet10)。
  • VRN集成在ModelNet40相对提升了51.5%,在ModelNet10提升了53.2%。
  • VRN单视图在ModelNet40上的准确率为88.98%;对24次旋转输入的集成获得更高的性能。
  • 基于体素的分类方法(VRN、Voxception)在给定基准上优于Voxnet、FusionNets和ORION等先前方法。
  • 基于体素的VAE能够在形状之间平滑插值并生成连贯、结构化的样本,尽管生成的形状尚未与真实物体完全相似。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。