Skip to main content
QUICK REVIEW

[論文レビュー] Image Transformer

Niki Parmar, Ashish Vaswani|arXiv (Cornell University)|Feb 15, 2018
Generative Adversarial Networks and Image Synthesis参考文献 11被引用数 200
ひとこと要約

この論文では、自己注意機構を画像生成に応用するため、画像内の局所的近傍に注目を制限した Image Transformer を導入している。これにより、大きな受容 field を持つ大規模画像の効率的なモデリングが可能となり、ImageNet において負の対数尤度 3.77 の最先端性能を達成した。これは以前の最先端の 3.83 よりも優れている。

ABSTRACT

Image generation has been successfully cast as an autoregressive sequence generation or transformation problem. Recent work has shown that self-attention is an effective way of modeling textual sequences. In this work, we generalize a recently proposed model architecture based on self-attention, the Transformer, to a sequence modeling formulation of image generation with a tractable likelihood. By restricting the self-attention mechanism to attend to local neighborhoods we significantly increase the size of images the model can process in practice, despite maintaining significantly larger receptive fields per layer than typical convolutional neural networks. While conceptually simple, our generative models significantly outperform the current state of the art in image generation on ImageNet, improving the best published negative log-likelihood on ImageNet from 3.83 to 3.77. We also present results on image super-resolution with a large magnification ratio, applying an encoder-decoder configuration of our architecture. In a human evaluation study, we find that images generated by our super-resolution model fool human observers three times more often than the previous state of the art.

研究の動機と目的

  • 順序付きデータを想定して設計された Transformer アーキテクチャを、計算可能なかぎりの尤度推定を伴う画像生成に拡張すること。
  • 画像における完全な自己注意の計算的非現実性を解消するため、注目を局所的な空間的近傍に制限すること。
  • 計算量を削減しつつ、大きな有効受容 field を維持することで、画像生成の品質とスケーラビリティを向上させること。
  • 提案されたアーキテクチャを用いて、画像生成および超解像タスクで最先端の性能を示すこと。

提案手法

  • 標準的な Transformer デコーダーを用いるが、各ヘッドが画像内の局所的空間的近傍内でのみ注目を計算するように制限する。
  • 局所的注目メカニズムにより、自己注意の二次的複雑性にもかかわらず、大規模画像への効率的計算とスケーラビリティが可能になる。
  • モデルは自己回帰的に学習され、因子化モデル仮定のもとで計算可能な尤度を有するように、ピクセルを逐次的に予測する。
  • 超解像のためには、エンコーダ-デコーダ構成を用い、エンコーダーが低解像度画像を処理し、デコーダーが高解像度出力を生成する。
  • このアーキテクチャは、標準的な畳み込みネットワークよりもはるかに大きな各レイヤーごとの受容 field を維持しており、特徴表現を強化する。
  • 訓練は、ラベルスムージングと学習率スケジューリングを用いた標準的な交差エントロピー損失で最適化される。

実験結果

リサーチクエスチョン

  • RQ1Transformer アーキテクチャは、計算可能なかぎりの尤度推定を伴う画像生成に効果的に適応可能か?
  • RQ2局所的注目制限は、大規模画像におけるモデル性能とスケーラビリティにどのように影響するか?
  • RQ3ImageNet 画像生成において、Image Transformer は既存の畳み込みおよび自己回帰モデルを上回ることができるか?
  • RQ4超解像を含む他の画像対画像変換タスクにも、モデルは一般化しやすいか?
  • RQ5超解像品質について、人間評価において、本モデルは先行研究と比較してどのように差をつけるか?

主な発見

  • ImageNet における Image Transformer の負の対数尤度は 3.77 であり、以前の最先端の 3.83 よりも優れている。
  • 尤度と人間評価の両方で、生成画像の品質が従来手法を著しく上回っている。
  • 大規模な拡大比を伴う超解像において、モデルは人間観察者を欺く確率が、以前の最先端の 3 倍にのぼっている。
  • 局所的注目メカニズムにより、完全な自己注意では以前は不可能だった大規模画像の学習が可能になった。
  • モデルは各レイヤーで大きな有効受容 field を維持しており、長距離依存性をモデル化する能力が向上している。
  • 人間評価により、生成された超解像画像が、先行モデルのものよりも現実的で、本物の画像と区別がつきにくくなっていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。