Skip to main content
QUICK REVIEW

[论文解读] Octree Generating Networks: Efficient Convolutional Architectures for High-resolution 3D Outputs

Maxim Tatarchenko, Alexey Dosovitskiy|arXiv (Cornell University)|Mar 28, 2017
Computer Graphics and Visualization Techniques参考文献 35被引用 22
一句话总结

本文提出了八叉树生成网络(OGN),一种基于自适应八叉树表示的深度卷积解码器,可生成高分辨率3D体素输出,通过预测稀疏的分层体素结构实现高效计算与内存使用。OGN在3D形状重建与自动编码任务中达到最先进性能,且可在单次前向传播中生成512³体素输出——此前使用密集体素网格无法实现。

ABSTRACT

We present a deep convolutional decoder architecture that can generate volumetric 3D outputs in a compute- and memory-efficient manner by using an octree representation. The network learns to predict both the structure of the octree, and the occupancy values of individual cells. This makes it a particularly valuable technique for generating 3D shapes. In contrast to standard decoders acting on regular voxel grids, the architecture does not have cubic complexity. This allows representing much higher resolution outputs with a limited memory budget. We demonstrate this in several application domains, including 3D convolutional autoencoders, generation of objects and whole scenes from high-level representations, and shape from a single image.

研究动机与目标

  • 解决密集3D卷积解码器在生成高分辨率输出时的立方级内存与计算复杂度问题。
  • 实现端到端学习,使此前因内存与速度限制而不可行的3D形状生成与重建任务成为可能。
  • 开发一种可扩展、高效的架构,在降低内存占用与推理时间的同时保持高精度,适用于高分辨率3D输出。
  • 证明通过学习的八叉树结构,可在单次前向传播中实现512³体素输出的可行性。
  • 通过用分层八叉树表示替代密集体素网格,拓展深度学习在大规模3D场景与形状建模中的适用性。

提出的方法

  • 提出一种新型卷积解码器架构——八叉树生成网络(OGN),在分层八叉树数据结构上运行,而非密集体素网格。
  • 训练网络联合预测八叉树结构(空间层次)与单个体素单元的占据值,实现在输出空间中的自适应分辨率。
  • 用基于八叉树的卷积层替代标准转置卷积层,仅处理活跃的非均匀区域,降低计算与内存消耗。
  • 采用多尺度解码策略,从低分辨率八叉树层级开始,通过逐步细化八叉树结构,对粗粒度预测进行逐级优化。
  • 将八叉树表示集成到类似U-Net的编码器-解码器框架中,使解码器在八叉树结构的特征图上运行。
  • 应用可微操作,使梯度可反向传播通过八叉树结构,支持网络的端到端训练。

实验结果

研究问题

  • RQ1深度学习架构能否在单次前向传播中高效生成高分辨率3D体素输出(如512³)?
  • RQ2与标准密集体素网格解码器相比,基于八叉树的解码器是否在内存效率与推理速度方面表现更优,同时保持相当的精度?
  • RQ3所提出的OGN架构能否有效应用于多种3D学习任务,如自动编码、从潜在码生成形状,以及单图像3D重建?
  • RQ4在高分辨率设置下,分层八叉树表示如何在降低计算成本的同时保留细粒度细节?
  • RQ5OGN在大规模3D场景中,特别是在需要精细结构的场景中,其可扩展性如何?

主要发现

  • OGN可在现代GPU上单次前向传播中成功生成最高达512³分辨率的3D输出,这是此前密集体素解码器无法实现的能力。
  • 在ShapeNet-all数据集上,OGN在32³分辨率下达到0.596的平均交并比(IoU),优于基线密集网络(0.590),并匹配或超过先前工作(如R2N2:0.560)。
  • 在ShapeNet-cars数据集上,OGN在128³分辨率下达到0.782的IoU,显著优于32³基线(0.641),证明了更高分辨率的优势。
  • 在单图像3D重建任务中,OGN在所有类别上均保持具有竞争力的性能,32³分辨率下平均IoU为0.596,表明其是基于体素网格模型的有力替代方案。
  • 在256³分辨率下,OGN性能优于32³基线(IoU:0.766),尽管因极端分辨率下的优化挑战导致性能略有下降。
  • 该框架可扩展至多维输出,如符号距离函数或带纹理的形状,使应用范围超越二值占据图。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。