[論文レビュー] TransGAN: Two Transformers Can Make One Strong GAN
TransGANは、畳み込み層を一切含まない、完全にトランスフォーマーに基づくGANアーキテクチャを提案する。メモリ効率が良く、段階的に解像度を上げる生成器と、パッチ単位のトランスフォーマー判別器を採用している。STL-10でIS 10.10、FID 25.32を達成し、高解像度画像生成タスクにおいて畳み込みベースのGANを上回る最先端の性能を発揮する。
The recent explosive interest on transformers has suggested their potential to become powerful universal models for computer vision tasks, such as classification, detection, and segmentation. However, how further transformers can go - are they ready to take some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs)? Driven by that curiosity, we conduct the first pilot study in building a GAN extbf{completely free of convolutions}, using only pure transformer-based architectures. Our vanilla GAN architecture, dubbed extbf{TransGAN}, consists of a memory-friendly transformer-based generator that progressively increases feature resolution while decreasing embedding dimension, and a patch-level discriminator that is also transformer-based. We then demonstrate TransGAN to notably benefit from data augmentations (more than standard GANs), a multi-task co-training strategy for the generator, and a locally initialized self-attention that emphasizes the neighborhood smoothness of natural images. Equipped with those findings, TransGAN can effectively scale up with bigger models and high-resolution image datasets. Specifically, our best architecture achieves highly competitive performance compared to current state-of-the-art GANs based on convolutional backbones. Specifically, TransGAN sets extbf{new state-of-the-art} IS score of 10.10 and FID score of 25.32 on STL-10. It also reaches competitive 8.64 IS score and 11.89 FID score on Cifar-10, and 12.23 FID score on CelebA $64 imes64$, respectively. We also conclude with a discussion of the current limitations and future potential of TransGAN. The code is available at \url{this https URL}.
研究の動機と目的
- トランスフォーマーのみで畳み込みネットワークを置き換えられるかどうかを調査すること。
- 畳み込み層を一切含まない、完全に自己注意メカニズムに依存するGANアーキテクチャの可能性を検討すること。
- データ拡張、マルチタスク相互学習、トランスフォーマー基盤の局所的初期化自己注意メカニズムを活用して、画像生成品質を向上させること。
- メモリ効率とパフォーマンスを維持したまま、高解像度データセットに対してモデルを効果的にスケーリングすること。
提案手法
- 特徴マップのサイズを段階的に拡大しながら埋め込み次元を減少させる、メモリに優しい段階的解像度生成器をトランスフォーマーに基づいて設計すること。
- パッチ単位の画像の現実性を評価するために、トランスフォーマー構造を用いたパッチレベルの判別器を実装すること。
- 標準のGANよりも効果的にデータ拡張を適用し、学習安定性と一般化性能を向上させること。
- 生成器におけるマルチタスク相互学習戦略を導入し、特徴学習と多様性を向上させること。
- 空間的な滑らかさを強調し、局所的な画像構造を保持するために、局所的初期化自己注意メカニズムを組み込むこと。
- パフォーマンスの低下を伴わずに、より大きなデータセットや高解像度に対応できるモデルアーキテクチャへのスケーリングを実現すること。
実験結果
リサーチクエスチョン
- RQ1畳み込み層を一切含まないトランスフォーマーのみで構築されたGANは構築可能か?
- RQ2データ拡張は、完全にトランスフォーマーに基づくGANにおける学習ダイナミクスとパフォーマンスにどのように影響するか?
- RQ3マルチタスク相互学習と局所的初期化自己注意メカニズムは、トランスフォーマー基盤の生成器における画像の質と多様性を向上させられるか?
- RQ4高解像度データセットにスケーリングされた畳み込みフリーのGANの性能の上限はどこか?
- RQ5畳み込みバックボーンを備えた最先端のGANと比較して、提案されたTransGANのFIDおよびISスコアはどのように差異を示すか?
主な発見
- TransGANは、STL-10データセットにおいて、新しい最先端のインセプションスコア(IS)10.10とフレシェインセプション距離(FID)25.32を達成した。
- Cifar-10では、ISスコア8.64、FID11.89を記録し、畳み込みベースのGANと同等の性能を示した。
- CelebA 64×64解像度では、FIDスコア12.23を達成し、顔画像合成における優れた生成品質を示した。
- モデルはデータ拡張の恩恵を標準のGANよりも顕著に受けており、こうした技術を適用した際の改善が顕著に見られた。
- マルチタスク相互学習と局所的初期化自己注意メカニズムの組み合わせにより、特徴学習と画像の現実性が向上した。
- TransGANは、より大きなモデルや高解像度データセットに対しても効果的にスケーリングでき、畳み込みのインダクティブバイアスに依存せずに、強力なパフォーマンスを維持した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。