QUICK REVIEW

[論文レビュー] Loss Functions for Neural Networks for Image Processing

Hang Zhao, Orazio Gallo|arXiv (Cornell University)|Nov 28, 2015

Advanced Image Processing Techniques参考文献 26被引用数 222

ひとこと要約

本稿では、画像復元タスクにおけるニューラルネットワーク向けに、L1とMS-SSIM損失の利点を組み合わせた、新しい微分可能損失関数Mixを提案する。人間の視認性と関連する損失関数を用いることで、固定されたアーキテクチャであっても、標準的なℓ₂損失よりも顕著に画像品質が向上することを示している。Mixは、超解像、JPEGアーティファクト除去、および共同ノイズ除去/デモザイキングのタスクにおいて、ℓ₂、ℓ₁、SSIM、MS-SSIMをすべて上回る性能を発揮する。

ABSTRACT

Neural networks are becoming central in several areas of computer vision and image processing and different architectures have been proposed to solve specific problems. The impact of the loss layer of neural networks, however, has not received much attention in the context of image processing: the default and virtually only choice is L2. In this paper, we bring attention to alternative choices for image restoration. In particular, we show the importance of perceptually-motivated losses when the resulting image is to be evaluated by a human observer. We compare the performance of several losses, and propose a novel, differentiable error function. We show that the quality of the results improves significantly with better loss functions, even when the network architecture is left unchanged.

研究の動機と目的

画像復元におけるニューラルネットワークの損失関数に十分な注意が払われていない現状に取り組むが、それらは学習において極めて重要な役割を果たす。
人間の画像品質認識と相関が低い標準的なℓ₂損失の代替策を調査する。
L1、SSIM、MS-SSIMといった知覚的動機付けに基づいた損失関数が、画像復元性能に与える影響を評価する。
L1とMS-SSIMを組み合わせた、新しい微分可能損失関数Mixを提案し、知覚的品質と収束性を向上させる。
ネットワークアーキテクチャを変更せずに損失関数の選択が、顕著な結果改善をもたらすことを実証する。

提案手法

バックプロパゲーションに使用可能なL1、SSIM、MS-SSIMの微分可能バージョンを損失レイヤーとして設計・実装する。
L1とMS-SSIM損失の重み付き組み合わせとして、両者の相補的特徴を活かすハイブリッド損失関数Mixを提案する。
超解像、JPEGアーティファクト除去、および共同ノイズ除去/デモザイキングの3つの画像復元タスクに、完全畳み込みニューラルネットワークを訓練する。
低域フィルタリングとダウンサンプリングを用いて合成データを生成し、物理的イメージングプロセスと整合性を持たせた現実的な劣化を模擬する。
Caffeにすべての損失レイヤーを実装し、再現可能性とコミュニティ利用を支援するため、公開する。
MS-SSIM、PSNR、SSIMを含む複数の画像品質指標を用いて、広範な定量的・定性的比較を実施する。

実験結果

リサーチクエスチョン

RQ1ネットワークアーキテクチャを固定した場合、損失関数の選択が画像復元結果の知覚的品質にどのように影響するか？
RQ2SSIM や MS-SSIM といった知覚的動機付けに基づいた損失関数は、画像復元タスクにおいて標準的なℓ₂損失をどの程度上回るか？
RQ3SSIM や MS-SSIM 損失は知覚的関連性が高いにもかかわらず、なぜ最適な結果を生み出せないのか？
RQ4L1 と MS-SSIM を組み合わせたハイブリッド損失は、指標と視覚的品質の両面で個別の損失関数を上回る性能を達成できるか？
RQ5収束特性と局所最小値は、損失関数間で観察される性能差にどのような役割を果たすか？

主な発見

L1とMS-SSIMを組み合わせたMix損失関数は、超解像タスクでMS-SSIMスコア0.9829を達成し、ℓ₂（0.9748）、ℓ₁（0.9744）、SSIM（0.9752）、MS-SSIM（0.9752）を上回った。これは、ガウスフィルタ標準偏差が変化する状況（3〜5ピクセル）においても同様に成立する。
ℓ₂損失で訓練されたネットワークは平坦領域に著しいスポッティなアーティファクトを示すが、Mixで訓練されたネットワークははるかに滑らかで自然な結果を示し、視覚的品質でもℓ₁を上回った。
ガウスフィルタ標準偏差が3から5ピクセルに変化する中で、すべての損失関数の性能低下は一貫しており、劣化モデルの変更に対しても損失関数の相対的順位が安定していることが示された。
ℓ₂損失の劣悪な性能は、収束問題や局所最小値に起因する部分が大きく、再訓練によりより良い損失関数を用いることで、ℓ₂ベースのモデルでも結果が向上することが示唆された。
共同ノイズ除去・デモザイキングタスクにおいて、提案されたMix損失は、最先端のノイズ除去アルゴリズムCFA-BM3Dをも凌駆する実用的優位性を示した。
SSIMとMS-SSIMは、一様なバイアスに敏感で、特定の画像構造に対して応答が限定的であるため、最適な結果を出せない。この問題は、ハイブリッドなMix損失によって緩和された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。