QUICK REVIEW

[論文レビュー] Density Modeling of Images using a Generalized Normalization Transformation

Johannes Ballé, Valero Laparra|arXiv (Cornell University)|Nov 19, 2015

Neural Networks and Applications被引用数 242

ひとこと要約

本稿では、負エントロピーを最小化するパラメータ最適化により局所的画像パッチのガウス化を学習する、微分可能で可逆な一般化除法正規化（GDN）変換を提案する。この手法はICA-MGおよびラジアルガウス化を上回り、成分間の相互情報量を低減し、より自然な画像サンプルを生成でき、画像のノイズ除去や深層教師なし表現学習に有効に応用できる。

ABSTRACT

We introduce a parametric nonlinear transformation that is well-suited for Gaussianizing data from natural images. The data are linearly transformed, and each component is then normalized by a pooled activity measure, computed by exponentiating a weighted sum of rectified and exponentiated components and a constant. We optimize the parameters of the full transformation (linear transform, exponents, weights, constant) over a database of natural images, directly minimizing the negentropy of the responses. The optimized transformation substantially Gaussianizes the data, achieving a significantly smaller mutual information between transformed components than alternative methods including ICA and radial Gaussianization. The transformation is differentiable and can be efficiently inverted, and thus induces a density model on images. We show that samples of this model are visually similar to samples of natural image patches. We demonstrate the use of the model as a prior probability density that can be used to remove additive noise. Finally, we show that the transformation can be cascaded, with each layer optimized using the same Gaussianization objective, thus offering an unsupervised method of optimizing a deep network architecture.

研究の動機と目的

局所的画像パッチのガウス化を効果的に行うパrametricで可逆な変換を開発すること。
変換パラメータを、出力分布の負エントロピーを最小化することで最適化し、非ガウス性の低減を直接的に行うこと。
視覚的に現実的なサンプルを生成でき、画像修復タスクをサポートする自然画像の密度モデルを構築すること。
複数のGDN層を段階的に接続することで、深層教師なし表現学習を可能にすること。
ICA-MGやラジアルガウス化といった非パrametric手法の限界、特に収束が遅くデータ非効率である点を克服すること。

提案手法

GDN変換は線形変換に続く非線形正規化を適用する：各成分は、整流および指数化された成分の重み付き和の指数関数と定数の和から得られるプーリングされた活動量で除算される。
変換は線形変換行列、指数、重み、定数でパラメータ化され、出力分布の負エントロピーを最小化するようにすべて同時に最適化される。
変数変換の公式を用いて、変換後のデータの負エントロピーを元のデータ上の期待値として表現し、エンドツーエンドの最適化を可能にする。
変換のヤコビ行列が常に正定値であることを要件とすることで可逆性を保証し、正確な密度推定とサンプリングを可能にする。
自然画像パッチをvan HaterenおよびKodakデータセットを用いて学習し、ガウス化を向上させるために飽和除去と強度非線形性の前処理を実施する。
複数のGDN層をスタック可能なアーキテクチャをサポートし、各層が同一の負エントロピー最小化目的関数に基づいて最適化され、深く教師なし表現学習が可能になる。

実験結果

リサーチクエスチョン

RQ1パラメトリックで微分可能かつ可逆な変換として、GDNはICA-MG やラジアルガウス化といった既存手法を上回るガウス化性能を示せるか？
RQ2提案されたGDN変換は、相互情報量の低減とサンプル品質の向上という指標で、自然画像のより優れた密度モデルを提供するか？
RQ3GDN変換は、教師なし表現学習のための深層アーキテクチャを構築するために、効果的に段階的に接続可能か？
RQ4GDNに基づく密度モデルは、ベースライン事前分布と比較して、画像のノイズ除去性能をどの程度向上させるか？
RQ5非パラメトリックな周辺非線形性と比較して、結合正規化関数の最適化は収束速度とデータ効率の点で優れているか？

主な発見

GDN変換はICA-MG やラジアルガウス化と比較して、成分間の相互情報量を顕著に低減しており、依存性の低減が優れていることが示された。
GDN密度モデルから生成されたサンプルは、他のモデルと比較して自然画像パッチにより視覚的に類似しており、統計的整合性が優れていることが示された。
画像ノイズ除去の事前分布として使用した場合、GDNモデルはベースライン手法よりも優れた結果をもたらし、画像修復における有効性が検証された。
GDN変換は微分可能で可逆であり、正確な密度推定と効率的なサンプリングが可能で、確率的モデリングにおいて極めて重要である。
同じ最適化目的関数を共有する複数のGDN層を段階的に接続することで、教師なしデータから階層的表現を学習可能な深層アーキテクチャが実現された。
非パラメトリックな代替手法に比べ、収束速度とデータ効率の点で優れており、周辺非線形性の推定に大規模データセットを必要としないために、その利点が顕著に現れた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。