QUICK REVIEW

[論文レビュー] A Powerful Generative Model Using Random Weights for the Deep Image Representation

Kun He, Yan Wang|arXiv (Cornell University)|Jun 15, 2016

Generative Adversarial Networks and Image Synthesis参考文献 18被引用数 49

ひとこと要約

この論文は、訓練されておらず、ランダムに初期化された深層畳み込みニューラルネットワーク（ranVGG）が、高品質な画像再構成、テクスチャ合成、ニューラルスタイル転送を実行できることを示している。これは、完全に訓練されたネットワークの結果と同等またはそれを上回る。この手法は、学習された重みではなく、深層ネットワークの構造的非線形性に依存しており、ネットワーク構造そのものが、深層可視化タスクにおける強力な生成モデリングを可能にしていることを示している。

ABSTRACT

To what extent is the success of deep visualization due to the training? Could we do deep visualization using untrained, random weight networks? To address this issue, we explore new and powerful generative models for three popular deep visualization tasks using untrained, random weight convolutional neural networks. First we invert representations in feature spaces and reconstruct images from white noise inputs. The reconstruction quality is statistically higher than that of the same method applied on well trained networks with the same architecture. Next we synthesize textures using scaled correlations of representations in multiple layers and our results are almost indistinguishable with the original natural texture and the synthesized textures based on the trained network. Third, by recasting the content of an image in the style of various artworks, we create artistic images with high perceptual quality, highly competitive to the prior work of Gatys et al. on pretrained networks. To our knowledge this is the first demonstration of image representations using untrained deep neural networks. Our work provides a new and fascinating tool to study the representation of deep network architecture and sheds light on new understandings on deep visualization.

研究の動機と目的

訓練済みのネットワークではなく、訓練されていないランダムに初期化された深層ニューラルネットワークを用いて、深層可視化タスクを実行できるかどうかを調査すること。
深層表現学習におけるモデルの訓練とは独立して、ネットワーク構造が果たす寄与を分離すること。
深層畳み込みネットワークの構造的性質のみに依存する生成モデリングフレームワークを開発すること。
ランダム重みネットワークが、事前学習モデルが出力するものと同等の知覚的リアリズムを持つ画像を生成できるかどうかを評価すること。
訓練の計算コストがかかる中で、ネットワーク構造を評価するための新しいツールを提供すること。

提案手法

著者らは、固定されたランダム畳み込みフィルタを有し、推論時に学習を行わないランダムに初期化されたVGGスタイルのネットワーク（ranVGG）を用いる。
画像再構成のため、白ノイズ入力を最適化して、実際の画像の特徴マップの活性化をL2損失で一致させる。
テクスチャ合成のため、複数の層にわたる生成画像と実際のテクスチャのグラム行列（特徴マップの相関）の差を最小化する。
スタイル転送のため、中層でのコンテンツ損失（活性化）と複数層にわたるスタイル損失（グラム行列）を組み合わせ、アートスタイルをコンテンツ画像に転送する。
層ごとの統計に基づいた適応的損失重み付けを用いて、手動のチューニングなしに知覚的品質を向上させる。
すべての最適化は、ネットワーク重みではなく入力画像に対して勾配降下法を用い、ランダム初期化を維持する。

実験結果

リサーチクエスチョン

RQ1訓練されておらず、ランダムに初期化された深層ネットワークが、再構成、テクスチャ合成、スタイル転送の分野で高品質な画像を生成できるか？
RQ2深層可視化の成功は、ネットワーク構造とモデルの訓練のどちらに起因しているのか、その程度はいかほどか？
RQ3深層ネットワークの階層的非線形性のみで、バックプロパゲーションに基づく学習なしに、知覚的にリアルな可視化を生成できるか？
RQ4標準的な深層可視化ベンチマークにおいて、ランダム重みネットワークの性能は、完全に訓練されたネットワークと比べてどの程度か？
RQ5ランダム重みネットワークは、訓練の前段階でネットワーク構造を評価するための軽量かつ高速な代替手段として利用できるか？

主な発見

同じアーキテクチャを有する完全に訓練されたネットワークに比べ、ランダム重みネットワークを用いた画像再構成では、より高い統計的再構成品質が達成された。
ranVGGを用いたテクスチャ合成は、元のテクスチャおよび完全に訓練されたVGGネットワークが出力するものとほとんど区別がつかない結果をもたらした。
ranVGGを用いたスタイル転送の結果は、Gatysらの事前学習済みVGGモデルが出力するものと知覚的に同等であり、ヴァン・ゴッホやモネの多様なスタイルを含め、高品質な芸術的画像を生成した。
より深い層（例：conv4_1）の追加により、テクスチャ合成の品質がわずかに向上した。これは、階層的表現学習が、訓練なしでも有効であることを示している。
微調整や adversarial 学習を一切行わず、アーキテクチャの深さと勾配ベースの最適化にのみ依存することで、高い知覚的品質が達成された。
結果から、深層ネットワークの内蔵非線形性と階層的構造そのものが、学習された重みとは独立して、強力な生成モデリングを可能にすることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。