QUICK REVIEW

[論文レビュー] ATGV-Net: Accurate Depth Super-Resolution

Gernot Riegler, Matthias Rüther|arXiv (Cornell University)|Jul 27, 2016

Advanced Vision and Imaging被引用数 25

ひとこと要約

ATGV-Net は、畳み込みニューラルネットワークと非等方的総一般化変動（ATGV）正則化を組み合わせたエンドツーエンドの深層学習フレームワークを提案する。変動モデルの原双対最適化をアンロールし、合成データのみで学習することで、強力な性能を達成し、複数のベンチマーク、特に挑戦的な ToF データセットにおいて、現在の最先端性能を達成している。この手法は、補助的な強化画像を必要としない。

ABSTRACT

In this work we present a novel approach for single depth map super-resolution. Modern consumer depth sensors, especially Time-of-Flight sensors, produce dense depth measurements, but are affected by noise and have a low lateral resolution. We propose a method that combines the benefits of recent advances in machine learning based single image super-resolution, i.e. deep convolutional networks, with a variational method to recover accurate high-resolution depth maps. In particular, we integrate a variational method that models the piecewise affine structures apparent in depth data via an anisotropic total generalized variation regularization term on top of a deep network. We call our method ATGV-Net and train it end-to-end by unrolling the optimization procedure of the variational method. To train deep networks, a large corpus of training data with accurate ground-truth is required. We demonstrate that it is feasible to train our method solely on synthetic data that we generate in large quantities for this task. Our evaluations show that we achieve state-of-the-art results on three different benchmarks, as well as on a challenging Time-of-Flight dataset, all without utilizing an additional intensity image as guidance.

研究の動機と目的

消費者用センサー（例：飛行時間（ToF）デバイス）から得られる低解像度でノイジーな深度マップの限界を解消すること。
補助的な強化画像を用いたガイドランスに依存しない単一画像深度スーパーサンプリング手法を開発すること。
高精度な高解像度深度推定のため、強力な変動モデルと深層学習を統合すること。
実世界の真値データが不要な状態で、合成データのみで高性能な深度スーパーサンプリングモデルを学習可能かどうかを実証すること。
深層ネットワークと変動最適化モデルの統合的エンドツーエンド学習を可能にすること。

提案手法

深層畳み込みネットワークが、出力空間における高解像度深度マップと深度不連続性の位置を同時に予測する。
ネットワークの出力を、空間的に適応的な重みを用いた非等方的総一般化変動（ATGV）正則化を適用する変動モデルの入力として使用する。
ATGV の原双対アルゴリズムの最適化ステップを微分可能レイヤーにアンロールし、モデル全体のエンドツーエンド学習を可能にする。
大規模な合成深度データに限定して学習を行い、実際のセンサー挙動を模倣するため、現実的なノイズと解像度低下を適用する。
低解像度の学習入力は、高解像度の合成深度マップをダウンスケーリングし、深度依存のノイズを追加し、欠損値を補間することで生成される。
最終的なモデルは、アンロールされた最適化ステップを介してバックプロパゲーションにより最適化され、ネットワーク重みと正則化パラメータの共同学習が可能になる。

実験結果

リサーチクエスチョン

RQ1深層ニューラルネットワークと変動モデルを組み合わせることで、従来手法よりも優れた深度スーパーサンプリングが達成可能か？
RQ2実世界の真値データが不要な状態で、合成データのみで高性能な深度スーパーサンプリングモデルを学習可能か？
RQ3深層ネットワークとアンロールされた変動最適化のエンドツーエンド学習が、ノイジーで低解像度の深度マップの精度を向上させられるか？
RQ4不連続性に敏感な ATGV 正則化の統合が、エッジの保持を向上させるとともに、均一領域でのノイズを低減できるか？
RQ5強化画像を用いたガイドランスなしで、本手法は実世界の ToF データセットにおいても優れた性能を示せるか？

主な発見

ATGV-Net は、Middlebury データセットを含む3つの標準ベンチマークで最先端の性能を達成し、ToFMark データセットでは平均絶対誤差（MAE）が 28.51 mm であった。
ToFMark データセットでは、ATGV-Net は RMSE 28.51 mm を達成し、強化画像を用いないにもかかわらず、2番目に優れた手法（Ferstl ら）の 29.89 mm よりも優れている。
アブレーションスタディの結果、CNN 僅どのベースラインと比較して、ATGV-Net のエンドツーエンド学習モデルは顕著な向上を示し、Moebius イメージにおいて MAE を 1.37 mm 減少させた。
定性的な比較により、本手法は従来手法よりも細かい構造と深度不連続性をより良く保持しており、均一領域でのノイズも低減されている。
合成データのみで学習したモデルは、実世界の ToF データに対しても効果的に一般化でき、合成データが実センサー応用に適していることを示した。
深層ネットワークと ATGV 正則化の統合により、深層学習のみまたは従来の変動モデルに依存する手法と比較して、エッジがより鋭くなり、深度境界付近のアーティファクトも減少した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。