QUICK REVIEW

[论文解读] ATGV-Net: Accurate Depth Super-Resolution

Gernot Riegler, Matthias Rüther|arXiv (Cornell University)|Jul 27, 2016

Advanced Vision and Imaging被引用 25

一句话总结

ATGV-Net 提出了一种端到端的深度学习框架，将卷积神经网络与各向异性总广义变分（ATGV）正则化相结合，用于单幅深度图超分辨率。通过展开变分模型的原始-对偶优化过程，并仅在合成数据上进行训练，该方法在多个基准测试中实现了最先进性能，包括具有挑战性的 ToF 数据集，且无需借助强度图像进行引导。

ABSTRACT

In this work we present a novel approach for single depth map super-resolution. Modern consumer depth sensors, especially Time-of-Flight sensors, produce dense depth measurements, but are affected by noise and have a low lateral resolution. We propose a method that combines the benefits of recent advances in machine learning based single image super-resolution, i.e. deep convolutional networks, with a variational method to recover accurate high-resolution depth maps. In particular, we integrate a variational method that models the piecewise affine structures apparent in depth data via an anisotropic total generalized variation regularization term on top of a deep network. We call our method ATGV-Net and train it end-to-end by unrolling the optimization procedure of the variational method. To train deep networks, a large corpus of training data with accurate ground-truth is required. We demonstrate that it is feasible to train our method solely on synthetic data that we generate in large quantities for this task. Our evaluations show that we achieve state-of-the-art results on three different benchmarks, as well as on a challenging Time-of-Flight dataset, all without utilizing an additional intensity image as guidance.

研究动机与目标

为解决消费级传感器（如飞行时间（ToF）设备）生成的低分辨率、噪声较多的深度图的局限性。
开发一种单幅图像深度超分辨率方法，不依赖辅助强度图像进行引导。
将强大的变分模型与深度学习相结合，实现高分辨率深度估计的高精度。
证明仅使用合成训练数据即可实现高性能深度超分辨率。
实现联合深度网络与变分优化模型的端到端训练。

提出的方法

一个深度卷积网络同时预测高分辨率深度图以及输出空间中深度不连续的位置。
网络输出被用作变分模型的输入，该模型应用具有空间自适应加权的各向异性总广义变分（ATGV）正则化。
ATGV 的原始-对偶算法的优化步骤被展开为可微分层，以支持整个模型的端到端训练。
该方法仅在大规模合成深度数据上进行训练，通过施加真实传感器行为的噪声和分辨率退化来模拟真实情况。
低分辨率训练输入通过下采样高分辨率合成深度图生成，添加与深度相关的噪声，并插值缺失值。
最终模型通过反向传播优化展开的优化步骤，实现网络权重与正则化参数的联合学习。

实验结果

研究问题

RQ1结合深度神经网络与变分模型是否能相比现有方法实现更优的深度超分辨率？
RQ2是否可行完全基于合成数据训练高性能深度超分辨率模型，而无需真实世界的标注？
RQ3深度网络与展开的变分优化模型的端到端训练是否能提升在噪声多、分辨率低的深度图上的精度？
RQ4集成具有不连续性感知能力的 ATGV 正则化是否能增强边缘保持性并减少均匀区域的噪声？
RQ5所提出方法在真实世界 ToF 数据集上不使用强度图像引导时表现如何？

主要发现

ATGV-Net 在三个标准基准测试中均达到最先进性能，包括 Middlebury 数据集，在 ToFMark 数据集上的平均绝对误差（MAE）为 28.51 mm。
在 ToFMark 数据集上，ATGV-Net 的 RMSE 为 28.51 mm，优于第二名方法（Ferstl 等人）的 29.89 mm，尽管未使用强度图像进行引导。
消融研究显示，完整 ATGV-Net 模型的端到端训练相比仅 CNN 的基线模型有显著提升，Moebius 图像的 MAE 减少了 1.37 mm。
与之前方法相比，该方法在保持细小结构和深度不连续性方面表现更优，均匀区域的噪声更少，定性对比结果已验证。
仅在合成数据上训练的模型能有效泛化到真实世界 ToF 数据，证明了合成数据在真实传感器应用中的可行性。
将 ATGV 正则化与深度网络结合，相比仅依赖深度学习或传统变分模型的方法，能实现更锐利的边缘和更少的边界区域伪影。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。