QUICK REVIEW

[論文レビュー] Single Image Reflection Removal Using Deep Encoder-Decoder Network

Zhixiang Chi, Xiaolin Wu|arXiv (Cornell University)|Jan 31, 2018

Advanced Image Processing Techniques参考文献 27被引用数 28

ひとこと要約

本論文では、反射混在画像から反射なし画像へのマッピングを学習することで、単一画像の反射除去のための深層エンコーダ・デコーダCNNを提案する。物理的反射モデルを用いて生成されたフォトリアリスティックな合成データのみで訓練された本手法は、反射の滑らかさに関する仮定に依存せず、実世界の画像において最先端のPSNR結果を達成し、顕著に優れた性能を発揮する。

ABSTRACT

Image of a scene captured through a piece of transparent and reflective material, such as glass, is often spoiled by a superimposed layer of reflection image. While separating the reflection from a familiar object in an image is mentally not difficult for humans, it is a challenging, ill-posed problem in computer vision. In this paper, we propose a novel deep convolutional encoder-decoder method to remove the objectionable reflection by learning a map between image pairs with and without reflection. For training the neural network, we model the physical formation of reflections in images and synthesize a large number of photo-realistic reflection-tainted images from reflection-free images collected online. Extensive experimental results show that, although the neural network learns only from synthetic data, the proposed method is effective on real-world images, and it significantly outperforms the other tested state-of-the-art techniques.

研究の動機と目的

反射の明確な事前知識がなく、逆問題として不定であるため、困難である単一画像からの反射除去という挑戦的で不適切に定義された問題に対処すること。
複数の画像、偏光フィルター、または反射の滑らかさやスパarsityに関する仮定に依存する既存手法の限界を克服すること。
合成データのみで訓練されたにもかかわらず、実世界の画像に良好に一般化できるデータ駆動型の深層学習アプローチを開発すること。
画像に現れる反射の物理的形成をモデル化し、一般化を向上させるために大規模かつフォトリアリスティックなトレーニングデータを生成すること。

提案手法

反射層を最初に推定し、その後知覚的および残差学習を用いて透過層を再構築する3段階の深層エンコーダ・デコーダネットワークを設計する。
L1損失と重みλ=0.001のVGGベースの知覚的損失を組み合わせた損失関数を用いて、エンド・ツー・エンドでネットワークを訓練する。
合成された反射混在画像は、物理的画像形成モデルを用いて生成される：I = αT + βR + n、ここでαとβは透過率および反射率、nはノイズである。
反射画像は、実際の屋外および屋内シーンからランダムにクロップ・リサイズされ、ぼかしの分散と透過率α（0.75–0.8）がランダムに抽出され、実際の変動を模倣する。
トレーニングデータは66,540枚の合成画像（128×128）と22,110枚のテストデータで構成され、ランダムクロップおよびリサイズによるデータ拡張が施されている。
最適化にはAdamを用い、学習率10⁻⁴、β₁=0.9、バッチサイズ64、TITAN X GPU上で150エポック分訓練されている。

実験結果

リサーチクエスチョン

RQ1合成データのみで訓練されたディープラーニングモデルが、実世界の単一画像の反射除去に効果的に一般化できるか？
RQ2明確な事前知識（例：反射層の滑らかさやスパarsity）に依存する既存手法と比較して、データ駆動型アプローチが優れているか？
RQ3物理的画像形成モデルを効果的に活用して、反射除去のためのリアルなトレーニングデータを合成できるか？
RQ4PSNRおよび視覚的品質の観点から、実画像における最先端技術と比較して、本手法はどの程度の性能を発揮するか？

主な発見

合成画像では本手法がPSNR 29.08を達成し、[5]（19.72）および[7]（19.82）を顕著に上回った。
[41]のベンチマークデータセットでは、本手法がPSNR 18.70を達成し、[5]（16.85）および[7]（18.29）を上回った。
本手法は実世界の画像に良好に一般化され、反射が強くまたは滑らかでない場合でも優れた視覚的結果を生成した。これに対して[7]は非滑らかな条件下で失敗した。
本手法は[5]と比較して細部をよりよく保持しており、[5]は著しい細部損失を生じさせ、不自然な出力を生成した。
処理時間は効率的で、128×128画像では約0.6秒、512×512画像では約2秒を要する。
本ネットワークは反射の滑らかさに関する仮定に依存しないため、多様な実世界の反射パターンに対して堅牢である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。