QUICK REVIEW

[論文レビュー] Towards Metamerism via Foveated Style Transfer

Arturo Deza, Aditya Jonnalagadda|arXiv (Cornell University)|Jan 1, 2017

Generative Adversarial Networks and Image Synthesis被引用数 8

ひとこと要約

この論文では、VGG19ベースのエンコーダデコーダと適応インスタンス正規化を用いて、人間の目には同一に見えるが物理的には異なるメタマー（同一視覚的認識でも物理的に異なる画像）を生成する、フォーマイトド（foveated）な生成モデルであるNeuroFoveaを紹介する。フォーマイトド処理とノイズに強い最適化手法を活用することで、従来手法の1000倍以上高速にメタマーを生成でき、1サンプルあたり約1秒で実行可能な、スケーラブルなデータ駆動型メタマー実験が可能になる。

ABSTRACT

The problem of $ extit{visual metamerism}$ is defined as finding a family of perceptually indistinguishable, yet physically different images. In this paper, we propose our NeuroFovea metamer model, a foveated generative model that is based on a mixture of peripheral representations and style transfer forward-pass algorithms. Our gradient-descent free model is parametrized by a foveated VGG19 encoder-decoder which allows us to encode images in high dimensional space and interpolate between the content and texture information with adaptive instance normalization anywhere in the visual field. Our contributions include: 1) A framework for computing metamers that resembles a noisy communication system via a foveated feed-forward encoder-decoder network -- We observe that metamerism arises as a byproduct of noisy perturbations that partially lie in the perceptual null space; 2) A perceptual optimization scheme as a solution to the hyperparametric nature of our metamer model that requires tuning of the image-texture tradeoff coefficients everywhere in the visual field which are a consequence of internal noise; 3) An ABX psychophysical evaluation of our metamers where we also find that the rate of growth of the receptive fields in our model match V1 for reference metamers and V2 between synthesized samples. Our model also renders metamers at roughly a second, presenting a $ imes1000$ speed-up compared to the previous work, which allows for tractable data-driven metamer experiments.

研究の動機と目的

フォーマイトド視覚処理を活用することで、視覚的に同一に見えるが物理的には異なる画像（メタマー）を、高速で微分可能かつ効率的なフレームワークで生成すること。
視覚領域全体にわたる画像−テクスチャトレードオフ係数のハイパーパramータ感受性を、知覚的最適化手法により解消すること。
知覚的ノイズのない空間におけるノイズの影響を模倣することで、メタマーを生成するノイズの影響を受ける通信システムに類似したメタマーの生成をモデル化すること。
生成されたメタマーの生物学的妥当性を検証し、人間の視覚野V1およびV2と一致する受容野成長を示すようにすること。
生成時間を数時間から1秒未塔に短縮することで、スケーラブルかつデータ駆動型のメタマー実験を可能にすること。

提案手法

モデルは、視覚領域に応じて解像度を可変するフォーマイトドVGG19エンコーダデコーダアーキテクチャを採用しており、中心視野領域では高解像度で処理し、周辺領域では低解像度で処理する。
コンテンツおよびテクスチャ特徴量は、視覚領域全体にわたって適応インスタンス正規化（AdaIN）を用いて補間され、画像−テクスチャトレードオフの制御が可能になる。
勾配降下法を用いない前方伝搬によりメタマーが生成され、高コストな最適化ループを回避し、リアルタイム推論が可能になる。
知覚的最適化手法により、内部ノイズやハイパーパramータ感受性の影響を補償しながら、視覚領域全体にわたる画像−テクスチャトレードオフ係数を最適化する。
受容野の解析により、人間のV1およびV2と比較し、成長率を評価する。ABX心理物理学的評価を用いて、知覚的類似性を検証する。
知覚的ノイズのない空間にノイズ摂動を導入することで、フォーマイトド表現学習の副産物としてメタマーが自然に出現する。

実験結果

リサーチクエスチョン

RQ1フォーマイトドで、前向き伝搬型のニューラルネットワークが勾配降下法を用いずに、知覚的に区別できないメタマーを生成できるか？
RQ2知覚的ノイズのない空間におけるノイズの分布が、どのようにメタマー画像ペアを生じさせるか？
RQ3モデルの受容野成長パターンが、人間の視覚野V1およびV2とどの程度一致するか？
RQ4内部ノイズの影響を受けても、知覚的最適化手法が視覚領域全体にわたる画像−テクスチャトレードオフを効果的に調整できるか？
RQ5提案手法は、従来のメタマー生成手法と比較して、どの程度の計算効率の向上が達成できるか？

主な発見

NeuroFoveaモデルは、1サンプルあたり約1秒でメタマーを生成でき、従来の勾配ベース手法と比較して約1000倍の高速化を達成した。
モデルが生成したメタマーは、基準メタマーに対して人間のV1と一致する受容野成長率を示し、合成サンプルに対してはV2と一致する。
知覚的最適化手法により、ハイパーパramータ感受性が効果的に補償され、視覚領域全体にわたる画像−テクスチャトレードオフ係数の最適化が成功した。
モデルのフォーマイトドアーキテクチャにより、適応インスタンス正規化を用いたコンテンツおよびテクスチャ特徴量の高次元表現と補間が可能になった。
ABX心理物理学的評価により、生成されたメタマーが知覚的に区別できないことが確認され、モデルが人間の視覚認識を模倣する有効性が裏付けられた。
メタマーは、フォーマイトド表現の知覚的ノイズのない空間に位置するノイズ摂動の副産物として自然に出現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。