Skip to main content
QUICK REVIEW

[論文レビュー] Fast Image Processing with Fully-Convolutional Networks

Qifeng Chen, Jia Xu|arXiv (Cornell University)|Sep 2, 2017
Image Enhancement Techniques参考文献 13被引用数 39
ひとこと要約

本論文では、入力-出力ペアの学習により、L0スムージング、スタイル転送、ホコリ除去など、幅広い画像処理演算子を近似できる完全畳み込みニューラルネットワーク(FCN)を提案する。学習済みモデルは定常時間でフル解像度で実行され、MIT-Adobeデータセットで36 dBのPSNRを達成(先行手法比8.5 dBの向上)、データセットや解像度を越えて優れた速度と一般化性能を示す。

ABSTRACT

We present an approach to accelerating a wide variety of image processing operators. Our approach uses a fully-convolutional network that is trained on input-output pairs that demonstrate the operator's action. After training, the original operator need not be run at all. The trained network operates at full resolution and runs in constant time. We investigate the effect of network architecture on approximation accuracy, runtime, and memory footprint, and identify a specific architecture that balances these considerations. We evaluate the presented approach on ten advanced image processing operators, including multiple variational models, multiscale tone and detail manipulation, photographic style transfer, nonlocal dehazing, and nonphotorealistic stylization. All operators are approximated by the same model. Experiments demonstrate that the presented approach is significantly more accurate than prior approximation schemes. It increases approximation accuracy as measured by PSNR across the evaluated operators by 8.5 dB on the MIT-Adobe dataset (from 27.5 to 36 dB) and reduces DSSIM by a multiplicative factor of 3 compared to the most accurate prior approximation scheme, while being the fastest. We show that our models generalize across datasets and across resolutions, and investigate a number of extensions of the presented approach. The results are shown in the supplementary video at https://youtu.be/eQyfHgLx8Dc

研究の動機と目的

  • 計算コストが高く、高解像度で遅延が生じる多様で複雑な画像処理演算子を高速化すること。
  • ダウンサンプリングに基づく近似手法の限界を克服し、高周波数の詳細を失わず、元の演算子を再実行する必要がないこと。
  • ハイパーパramータのチューニングなしに複数の演算子に一般化する、単一で統合されたFCNアーキテクチャを開発すること。
  • 画像処理近似において、高い精度、低遅延、コンパクトなメモリ使用量を同時に達成すること。

提案手法

  • 目的の画像処理演算子の挙動を示す入力-出力画像ペアを用いて完全畳み込みネットワークを学習する。
  • エンドツーエンドの学習により、推論時に元の演算子を実行する必要がない、入力画像から出力画像へのエンドツーエンドマッピングを学習する。
  • 精度、速度、メモリ使用量のバランスをとるために、深さと幅を制御した特定のFCNアーキテクチャを採用する。
  • 再学習やハイパーパramータの調整なしに、複数の演算子に同じ学習済みモデルを適用する。
  • データセット(MIT-Adobe、RAISE)および解像度(最大2160p)を越えて一般化を検証し、トレーニング時に見なかった解像度にも対応する。
  • パrameter化された演算子、動画処理、複数の演算子統合をサポートするためのフレームワークを拡張する。

実験結果

リサーチクエスチョン

  • RQ1特定の演算子に特化したチューニングなしに、多様な高度な画像処理演算子を一括して正確に近似できる共通のFCNアーキテクチャは可能か?
  • RQ2ネットワークの深さと幅は、近似精度、実行時間、メモリ使用量にどのように影響するか?
  • RQ3本手法は、トレーニング時に見なかったデータセットや解像度に対しても一般化できるか?
  • RQ4学習済みモデルをテスト時にインタラクティブでパrameter化可能な画像処理エフェクト作成に使用できるか?
  • RQ5このフレームワークは動画処理や、1つのネットワーク内で複数の画像処理効果を統合する用途に拡張可能か?

主な発見

  • 提案手法は、MIT-Adobe 5Kテストセットで10の演算子すべてに対して36 dBのPSNRを達成し、先行する近似手法比で8.5 dBの向上を示した。
  • 最も正確な先行ベースラインと比較して、DSSIMを3倍に低減した一方で、著しく高速であった。
  • モデルはデータセット間で一般化する:クロスデータセットのSSIM差は1%未満であり、強力なドメイン一般化性能を示した。
  • 2160pやトレーニング時に見なかった解像度を含む、さまざまな解像度でも高い精度を維持し、PSNRが常にベースラインを上回った。
  • 同じモデルアーキテクチャと固定されたハイパーパramータで、再学習なしに10のすべての演算子を近似可能であり、強力な一般化性能を示した。
  • 1080pで190 msという定常時間で実行され、元の演算子の実行時間に依存せず、最も高速な先行手法のバリエーションよりも速かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。