Skip to main content
QUICK REVIEW

[論文レビュー] Alias-Free Generative Adversarial Networks

Tero Karras, Miika Aittala|arXiv (Cornell University)|Jun 23, 2021
Generative Adversarial Networks and Image Synthesis参考文献 63被引用数 815
ひとこと要約

本論文はエイリアシングをGAN生成器におけるテクスチャの貼り付きの根本原因として特定し、StyleGAN2(StyleGAN3)の連続信号かつエイリアスフリーな再設計を提案する。それにより平行移動と回転の同値性を達成し、StyleGAN2のFIDと同等の性能を、内部表現を改善した状態で維持する。

ABSTRACT

We observe that despite their hierarchical convolutional nature, the synthesis process of typical generative adversarial networks depends on absolute pixel coordinates in an unhealthy manner. This manifests itself as, e.g., detail appearing to be glued to image coordinates instead of the surfaces of depicted objects. We trace the root cause to careless signal processing that causes aliasing in the generator network. Interpreting all signals in the network as continuous, we derive generally applicable, small architectural changes that guarantee that unwanted information cannot leak into the hierarchical synthesis process. The resulting networks match the FID of StyleGAN2 but differ dramatically in their internal representations, and they are fully equivariant to translation and rotation even at subpixel scales. Our results pave the way for generative models better suited for video and animation.

研究の動機と目的

  • アンチエイリアシングと境界効果がGAN生成器のテクスチャ貼りつきにどのような影響を与えるかを説明する。
  • サブピクセル平移と回転に対して同値性を課す連続領域のエイリアスフリー生成器アーキテクチャを開発する。
  • StyleGAN2を最小のFID損失でエイリアスフリーかつ連続的に等方性を持つ生成器(StyleGAN3)に適応させる。
  • エイリアスフリー設計が回転・平行移動の等価性を画像品質を犠牲にせず達成することを実証する。

提案手法

  • CNNの信号処理をバンドリミット信号とShannon–Nyquist理論を用いて連続領域で再定式化する。
  • アップサンプリングフィルタと要素ごとの非線形性の2つのエイリアシング源を特定し、減衰の高いフィルタと連続領域の低域通過フィルタリングによって緩和する。
  • 境界参照を抑制するため、サンプリング/パディングを境界拡張と窓付きsinc(Kaiser)フィルタに置換する。
  • フーリエ特徴量、フィルタされた非線形性、回転対称の1x1畳み込みを含むStyleGAN2生成器の多段 redesign を実装して連続的な等価性を実現する。
  • 層ごとのフィルタ予算、ストップバンド処理、層ごとのフーリエ特徴量制御を導入し、スケール間のエイリアシングを管理する。
  • 1x1畳み込みと半径対称のダウンサンプリングフィルタ(ジンク基)を用いて回転等価性を持つ生成器を提供する。
  • 入力フーリエ特徴量に対して学習可能なアフィン変換を提案・検証し、画像ごとのグローバルトランスレーション/回転を許容する。

実験結果

リサーチクエスチョン

  • RQ1GAN生成器のエイリアシングを排除して、真のサブピクセル平移と回転の等価性を課すことは可能か。
  • RQ2StyleGAN2をエイリアスフリーで連続的に等価な生成器へと変換するために必要な最小限のアーキテクチャおよび信号処理の変更は何か。
  • RQ3エイリアスフリー生成器(StyleGAN3)はFIDと明示的な等価性指標の点でStyleGAN2とどう比較されるか。
  • RQ4回転の等価性は画像品質を損なうのか、どの設定で許容可能なFIDと達成されるか。
  • RQ5データセットAcrossで安定・拡張可能な等価生成を実現する実践的設計指針(フィルタ、パディング、層仕様)は何か。

主な発見

DatasetConfigFID↓EQ-T↑EQ-R↑
FFHQ-U 70000 img, 1024StyleGAN23.7915.8910.79
FFHQ-U 70000 img, 1024StyleGAN3-T3.6761.6913.95
FFHQ-U 70000 img, 1024StyleGAN3-R3.6664.7847.64
FFHQ 70000 img, 1024StyleGAN22.7013.5810.22
FFHQ 70000 img, 1024StyleGAN3-T2.7961.2113.82
FFHQ 70000 img, 1024StyleGAN3-R3.0764.7646.62
Ablation (Main configuration)(StyleGAN3-R final)4.5066.6540.48
  • エイリアスフリーな再設計により、StyleGAN2のFID性能を損なうことなく平行移動と回転の等価性を獲得する。
  • StyleGAN3-Rは高いEQ-T利得を保ちながら強い回転等価性(EQ-R)を実現し、データセット間で競争力のあるFIDを維持する。
  • 境界パディングを拡張キャンバスに置換し、高減衰・窓付きsincフィルタを用いることで平行移動の等価性が大幅に改善される。
  • アップサンプリング/ダウンサンプリングと層別のストップバンド予算を組み込んだ非線形性のフィルタリングにより、エイリアシング由来のテクスチャ貼りつきを低減する。
  • 回転対称の生成は1x1畳み込みと radially symmetric なダウンサンプリングフィルタで実現可能で、性能を維持する。
  • 最終設定では、翻訳に対するEQ-Tが約60–70 dB、回転に対するEQ-Rが約40–48 dB、複数データセットで競争力のFIDを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。