[论文解读] Generative and Discriminative Voxel Modeling with Convolutional Neural Networks
论文提出基于体素的变分自编码器用于3D形状,以及基于体素的深度卷积网络用于分类,在ModelNet基准上取得显著改进,并提供用于潜在空间探索的图形用户界面。
When working with three-dimensional data, choice of representation is key. We explore voxel-based models, and present evidence for the viability of voxellated representations in applications including shape modeling and object classification. Our key contributions are methods for training voxel-based variational autoencoders, a user interface for exploring the latent space learned by the autoencoder, and a deep convolutional neural network architecture for object classification. We address challenges unique to voxel-based representations, and empirically evaluate our models on the ModelNet benchmark, where we demonstrate a 51.5% relative improvement in the state of the art for object classification.
研究动机与目标
- 激励并验证基于体素的3D数据表示在生成与判别任务中的有效性。
- 开发基于体素的变分自编码器以学习潜在形状因素并实现插值。
- 构建深度体素CNN(Voxception 与 Voxception-ResNet),在ModelNet36/40数据集上实现高性能3D对象分类。
- 提供用于探索潜在空间和进行实时推理的用户界面。
- 展示在ModelNet40和ModelNet10基准上的最先进或具竞争力的性能。
提出的方法
- 使用3x3x3卷积和潜在层的编码器/解码器架构训练基于体素的变分自编码器,并采用为体素占用调整的专用BCE损失。
- 结合KL散度项和L2正则化以及改为的二元交叉熵损失,以缓解体素网格中的类别不平衡。
- 在VAE中通过步幅卷积进行下采样、通过分数步长卷积进行上采样,配合批量归一化和Glorot初始化。
- 开发用于分类的基于体素的卷积神经网络:Voxception和Voxception-ResNet结构,具备Inception风格模块、残差连接和随机深度。
- 使用大规模数据增强(平移、翻转、旋转)和旋转平均集成进行训练;在ModelNet40/ModelNet10基准上评估。
- 提供用于潜在空间探索和实时推理的图形用户界面。
实验结果
研究问题
- RQ1基于体素的表示是否能够通过VAEs实现对3D形状的高保真生成建模?
- RQ2深层体素卷积网络是否能够在ModelNet基准上达到最先进的分类,而无需多视图方法?
- RQ3数据增强与架构深度如何影响基于体素的3D分类的性能?
- RQ4基于体素的VAE生成的插值和样本的质量如何,潜在空间是否能够解耦结构变异?
- RQ5相对于多视图或其他3D表示,基于体素的方法在性能和实用性上是否具备可扩展性?
主要发现
| 预测 | 阳性 | 阴性 |
|---|---|---|
| 实际阳性 | 99.39% | 0.61% |
| 实际阴性 | 7.64% | 92.36% |
- VAE在ModelNet10上的重建精度:99.39%的真阳性和92.36%的真阴性,存在一定的高估趋势。
- 最佳单一VRN模型在ModelNet40上达到91.33%,ModelNet10上93.61%;集成达到95.54%(ModelNet40)和97.14%(ModelNet10)。
- VRN集成在ModelNet40相对提升了51.5%,在ModelNet10提升了53.2%。
- VRN单视图在ModelNet40上的准确率为88.98%;对24次旋转输入的集成获得更高的性能。
- 基于体素的分类方法(VRN、Voxception)在给定基准上优于Voxnet、FusionNets和ORION等先前方法。
- 基于体素的VAE能够在形状之间平滑插值并生成连贯、结构化的样本,尽管生成的形状尚未与真实物体完全相似。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。