QUICK REVIEW

[論文レビュー] Non-Local Video Denoising by CNN

Axel Davy, Thibaud Ehret|arXiv (Cornell University)|Nov 30, 2018

Image and Signal Denoising Methods参考文献 54被引用数 29

ひとこと要約

本論文では、非トレーニング可能なレイヤーを用いてまず3次元空間時間的ピクセル群の類似ピクセル群を特定し、その中央値を特徴ベクトルとして抽出することで、非局所的自己類似性探索を組み込んだ新しいCNNアーキテクチャ、VNLNetを提案する。その後、その特徴ベクトルをCNNに供給し、クリーンな映像フレームを予測する。この手法は、ピクセルベースの非局所的手法とディープラーニングを効果的に組み合わせることで、最先端の動画ノイズ除去性能を達成し、このような高い結果を得る最初の成功したCNNベースの動画ノイズ除去手法を示している。

ABSTRACT

Non-local patch based methods were until recently state-of-the-art for image denoising but are now outperformed by CNNs. Yet they are still the state-of-the-art for video denoising, as video redundancy is a key factor to attain high denoising performance. The problem is that CNN architectures are hardly compatible with the search for self-similarities. In this work we propose a new and efficient way to feed video self-similarities to a CNN. The non-locality is incorporated into the network via a first non-trainable layer which finds for each patch in the input image its most similar patches in a search region. The central values of these patches are then gathered in a feature vector which is assigned to each image pixel. This information is presented to a CNN which is trained to predict the clean image. We apply the proposed architecture to image and video denoising. For the latter patches are searched for in a 3D spatio-temporal volume. The proposed architecture achieves state-of-the-art results. To the best of our knowledge, this is the first successful application of a CNN to video denoising.

研究の動機と目的

CNNが自己類似性探索と互換性がないため、非局所的ピクセルベース手法がCNNを上回る動画ノイズ除去分野におけるギャップを埋める。
非トレーニング可能な非局所レイヤーを用いて動画の自己類似性を効率的に統合するCNNアーキテクチャを開発し、高いノイズ除去性能を実現する。
非局所的手法とディープラーニングの長所を統合することで、動画ノイズ除去分野で最先端の結果を達成する。
GPUアクセラレーションに最適化された非局所探索を用いることで、リアルタイムかつ効率的な動画ノイズ除去を実現する。

提案手法

非トレーニング可能な初期レイヤーが、各ピクセルの周囲の検索ボリューム内で最も類似した3次元空間時間的ピクセル群を検索する。
各ピクセルについて、類似度が上位Nのピクセル群の中央ピクセル値を特徴ベクトルとして収集する。
この特徴ベクトル（非局所的文脈を表す）を、クリーンな映像フレームを予測するための標準的なCNNに供給し、エンドツーエンドで学習する。
GPU最適化されたピクセル群距離計算を用い、共有メモリとレジスタに格納された順序付きテーブルを活用して、N個の最良マッチを効率的に維持する。
アーキテクチャは、プーリングやストライド付き畳み込みを一切使用せず、空間的解像度を完全に維持し、既存のCNN設計と互換性を持つ。
非局所レイヤーは固定されておりトレーニングされず、CNN部分のみがクリーン・ノイズ付き映像ペアを用いてエンドツーエンドで学習される。

実験結果

リサーチクエスチョン

RQ1動画内の非局所的自己類似性は、CNNベースのノイズ除去フレームワークに効果的に統合可能か？
RQ2類似ピクセル群の特徴を集約する非トレーニング可能な非局所レイヤーは、標準的なCNNよりも動画ノイズ除去性能を向上させるか？
RQ3このハイブリッド手法は、従来の非局所的手法とエンドツーエンドCNNの両方を上回る最先端の動画ノイズ除去結果を達成できるか？
RQ4現代のGPU上で、提案された非局所ピクセル群探索実装はどの程度効率的か？
RQ5複雑な動き領域など、マッチングが不安定な領域ではネットワークの性能にどのような影響が生じるか？また、その影響は軽減可能か？

主な発見

提案されたVNLNetは、従来の非局所的手法および標準的なCNNを上回る最先端の動画ノイズ除去性能を達成した。
この手法は、非局所的自己類似性を効果的に活用する最初の成功したCNNベースの動画ノイズ除去手法である。
非局所探索の実装は、同じアルゴリズムを用いた単純なGPU実装に比べて25倍速い。
マッチングが不安定な領域（例：複雑な動き領域）では、ネットワークの性能は単一画像ノイズ除去と同等に低下し、適応的ピクセルサイズやマッチング品質フィードバックの導入が求められる。
41×41ピクセルの検索ピクセル群サイズで最も高い性能が得られ、信頼性の高いピクセル群マッチングの重要性が示された。
アーキテクチャは空間的解像度を完全に維持しており、プーリングを用いないため、ノイズ除去出力の細部が保持されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。