[论文解读] FusionNet: 3D Object Classification Using Multiple Data Representations
FusionNet 将体积卷积神经网络(V-CNN)基于体素数据与基于 2D 投影的多视图卷积神经网络结合,以提高 3D 物体分类的性能,在 ModelNet40/ModelNet10 数据集上达到最新的最先进结果。
High-quality 3D object recognition is an important component of many vision and robotics systems. We tackle the object recognition problem using two data representations, to achieve leading results on the Princeton ModelNet challenge. The two representations: 1. Volumetric representation: the 3D object is discretized spatially as binary voxels - $1$ if the voxel is occupied and $0$ otherwise. 2. Pixel representation: the 3D object is represented as a set of projected 2D pixel images. Current leading submissions to the ModelNet Challenge use Convolutional Neural Networks (CNNs) on pixel representations. However, we diverge from this trend and additionally, use Volumetric CNNs to bridge the gap between the efficiency of the above two representations. We combine both representations and exploit them to learn new features, which yield a significantly better classifier than using either of the representations in isolation. To do this, we introduce new Volumetric CNN (V-CNN) architectures.
研究动机与目标
- 通过互补的数据表示来推动对鲁棒的 3D 物体分类。
- 开发能够在更少参数下学习长程 3D 特征的体积卷积神经网络(V-CNNs)。
- 利用带有迁移学习的多视图 2D 投影以利用预训练网络。
- 融合来自异构网络的预测以超越单一表示的性能。
提出的方法
- 引入针对体素数据、具有方向增强的两种新型体积卷积神经网络。
- 对每个对象使用 60 个方向来学习跨方向共享权重的长程空间相关性。
- 在 V-CNN II 中,采用 inception 风格的模块以捕获多尺度体素特征。
- 通过随机顶点位移的数据增强以提高鲁棒性。
- 在最终层通过线性分数融合将基于体素的网络与 MV-CNN 结合,形成 FusionNet。
实验结果
研究问题
- RQ1结合基于体素的表示和多视图表示是否能在 3D 物体分类上超越单独一个表示所达到的效果?
- RQ2具备旋转/定向输入的体积网络是否能补充基于 2D 投影的网络以在 ModelNet 基准测试中提升?
- RQ3来自 ImageNet 的迁移学习对 MV-CNN 在 3D 形状分类中的效果有何影响?
主要发现
| 网络 | 使用的视图数量 | ModelNet10 的准确率 | ModelNet40 的准确率 |
|---|---|---|---|
| Volumetric CNN (V-CNN 1) | 60 | 91.48 | 82.41 |
| V-CNN I* | 60 | – | 80.63 |
| V-CNN II | 60 | 90.22 | 82.11 |
| V-CNN II + V-CNN II | 60 | 90.32 | 83.31 |
| V-CNN I + V-CNN II | 60 | 91.95 | 83.78 |
| AlexNet (random) MV-CNN | 20 | – | 85.82 |
| AlexNet (FT) MV-CNN | 20 | 92.69 | 86.92 |
| AlexNet (FT) MV-CNN + V-CNN I | 20, 60 | 93.04 | 88.50 |
| FusionNet | 20, 60 | 93.11 | 90.80 |
- V-CNN I 与 V-CNN II 性能相当但学习到互补的特征;将它们结合可获得更好的结果。
- MV-CNN 的基于 AlexNet 且使用 ImageNet 预训练的表现优于单独的体积卷积神经网络。
- FusionNet(结合 V-CNN I、V-CNN II 与 MV-CNN)在 ModelNet10 和 ModelNet40 上取得最好结果。
- 对基于 AlexNet 的 MV-CNN 进行微调可带来显著提升;与体素网络结合可获得额外改进。
- FusionNet 风格显示 60 视图体素集合加 20 视图 MV-CNN 超越单一表示方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。