QUICK REVIEW

[论文解读] Generative and Discriminative Voxel Modeling with Convolutional Neural Networks

Andrew Brock, Theodore Lim|arXiv (Cornell University)|Aug 15, 2016

3D Shape Modeling and Analysis参考文献 13被引用 450

一句话总结

论文提出基于体素的变分自编码器用于3D形状，以及基于体素的深度卷积网络用于分类，在ModelNet基准上取得显著改进，并提供用于潜在空间探索的图形用户界面。

ABSTRACT

When working with three-dimensional data, choice of representation is key. We explore voxel-based models, and present evidence for the viability of voxellated representations in applications including shape modeling and object classification. Our key contributions are methods for training voxel-based variational autoencoders, a user interface for exploring the latent space learned by the autoencoder, and a deep convolutional neural network architecture for object classification. We address challenges unique to voxel-based representations, and empirically evaluate our models on the ModelNet benchmark, where we demonstrate a 51.5% relative improvement in the state of the art for object classification.

研究动机与目标

激励并验证基于体素的3D数据表示在生成与判别任务中的有效性。
开发基于体素的变分自编码器以学习潜在形状因素并实现插值。
构建深度体素CNN（Voxception 与 Voxception-ResNet），在ModelNet36/40数据集上实现高性能3D对象分类。
提供用于探索潜在空间和进行实时推理的用户界面。
展示在ModelNet40和ModelNet10基准上的最先进或具竞争力的性能。

提出的方法

使用3x3x3卷积和潜在层的编码器/解码器架构训练基于体素的变分自编码器，并采用为体素占用调整的专用BCE损失。
结合KL散度项和L2正则化以及改为的二元交叉熵损失，以缓解体素网格中的类别不平衡。
在VAE中通过步幅卷积进行下采样、通过分数步长卷积进行上采样，配合批量归一化和Glorot初始化。
开发用于分类的基于体素的卷积神经网络：Voxception和Voxception-ResNet结构，具备Inception风格模块、残差连接和随机深度。
使用大规模数据增强（平移、翻转、旋转）和旋转平均集成进行训练；在ModelNet40/ModelNet10基准上评估。
提供用于潜在空间探索和实时推理的图形用户界面。

实验结果

研究问题

RQ1基于体素的表示是否能够通过VAEs实现对3D形状的高保真生成建模？
RQ2深层体素卷积网络是否能够在ModelNet基准上达到最先进的分类，而无需多视图方法？
RQ3数据增强与架构深度如何影响基于体素的3D分类的性能？
RQ4基于体素的VAE生成的插值和样本的质量如何，潜在空间是否能够解耦结构变异？
RQ5相对于多视图或其他3D表示，基于体素的方法在性能和实用性上是否具备可扩展性？

主要发现

预测	阳性	阴性
实际阳性	99.39%	0.61%
实际阴性	7.64%	92.36%

VAE在ModelNet10上的重建精度：99.39%的真阳性和92.36%的真阴性，存在一定的高估趋势。
最佳单一VRN模型在ModelNet40上达到91.33%，ModelNet10上93.61%；集成达到95.54%（ModelNet40）和97.14%（ModelNet10）。
VRN集成在ModelNet40相对提升了51.5%，在ModelNet10提升了53.2%。
VRN单视图在ModelNet40上的准确率为88.98%；对24次旋转输入的集成获得更高的性能。
基于体素的分类方法（VRN、Voxception）在给定基准上优于Voxnet、FusionNets和ORION等先前方法。
基于体素的VAE能够在形状之间平滑插值并生成连贯、结构化的样本，尽管生成的形状尚未与真实物体完全相似。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。