QUICK REVIEW

[論文レビュー] FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization

Xingchao Liu, Chengyue Gong|arXiv (Cornell University)|Dec 2, 2021

Generative Adversarial Networks and Image Synthesis被引用数 36

ひとこと要約

FuseDream は AugCLIP、初期化/過パラメータ化戦略、組成生成アプローチを組み合わせ、訓練せずに MS COCO 指標で強力な成績を達成します。

ABSTRACT

Generating images from natural language instructions is an intriguing yet highly challenging task. We approach text-to-image generation by combining the power of the retrained CLIP representation with an off-the-shelf image generator (GANs), optimizing in the latent space of GAN to find images that achieve maximum CLIP score with the given input text. Compared to traditional methods that train generative models from text to image starting from scratch, the CLIP+GAN approach is training-free, zero shot and can be easily customized with different generators. However, optimizing CLIP score in the GAN space casts a highly challenging optimization problem and off-the-shelf optimizers such as Adam fail to yield satisfying results. In this work, we propose a FuseDream pipeline, which improves the CLIP+GAN approach with three key techniques: 1) an AugCLIP score which robustifies the CLIP objective by introducing random augmentation on image. 2) a novel initialization and over-parameterization strategy for optimization which allows us to efficiently navigate the non-convex landscape in GAN space. 3) a composed generation technique which, by leveraging a novel bi-level optimization formulation, can compose multiple images to extend the GAN space and overcome the data-bias. When promoted by different input text, FuseDream can generate high-quality images with varying objects, backgrounds, artistic styles, even novel counterfactual concepts that do not appear in the training data of the GAN we use. Quantitatively, the images generated by FuseDream yield top-level Inception score and FID score on MS COCO dataset, without additional architecture design or training. Our code is publicly available at \url{https://github.com/gnobitab/FuseDream}.

研究の動機と目的

新しい生成器を訓練せず、CLIP+GAN を用いた訓練不要のテキストから画像生成を動機づける。
GAN 潜在空間における敵対的最適化に対する CLIP の脆弱性に対処する。
AugCLIP を提案する。拡張に頑健な採点関数で意味的整合性を改善する。
非凸な GAN 潜在空間をより効果的に扱うための初期化/オーバーパラメータ化を導入する。
データ分布外の画像を生成しデータバイアスを削減する組成生成フレームワークを開発する。

提案手法

AugCLIP を、ランダムな画像拡張に対する CLIP スコアの平均化によって、敵対的攻撃に抵抗するように定義する。
上位 k 個の初期潜在コードを線形に結合し、共同最適化する過パラメータ化・多重初期化最適化を用いる。
動的バリア勾配降下法による双レベル最適化を用いて、組成生成を定式化し、AugCLIP を同時に最大化し知覚損失を最小化する。
2枚の画像の組成（前景/背景）を空間配置とサイズスケーリングで実装し、ポアソンブレンディングで融合画像を生成する。
離散的な組成パラメータを総当たりで探索し、拡張された目的関数で連続潜在コードを最適化する。
基準となる CLIP+GAN 手法と比較し、MS COCO 指標（IS、FID、CLIP R-prec、R-prec）を報告する。

実験結果

リサーチクエスチョン

RQ1AugCLIP は GAN 潜在空間での CLIP ベースの敵対的最大化に対する頑健性を提供できるか。
RQ2初期化/オーバーパラメータ化戦略は CLIP+GAN のテキストから画像生成の最適化結果を改善するか。
RQ3組成生成は GAN 空間を拡張して一貫した複数オブジェクトの画像を生成し、データバイアスのアーチファクトを減らすか。
RQ4従来手法と比較して MS COCO における FuseDream の定量的な性能はどうか。
RQ5組成フレームワークは意味的関連性を維持しつつ反事実的または分布外の画像を生成することができるか。

主な発見

Method	IS	FID	CLIP R-prec	R-prec
FuseDream (256, k=5)	34.26	21.16	96.43	65.56
FuseDream (256, k=10)	34.67	21.89	98.46	66.06
FuseDream (512, k=5)	34.19	21.52	98.38	63.67
FuseDream (512, k=10)	32.88	25.24	98.44	63.80

AugCLIP は敵対的に誘導されたアーティファクトを大幅に減らし、標準の CLIP スコアよりも意味的に整合した画像を生成する。
トップk潜在コードとオーバーパラメータ化を用いた初期化は最適化を改善し、局所最大値からの脱出を助ける。
双レベル最適化を用いた組成生成は前景/背景オブジェクトの整合的な融合を可能にし、境界の不連続性を低減する。
FuseDream は新しい生成器を訓練せずに MS COCO で最先端風の Inception Score を達成し、FID および CLIP ベースの指標も競争力がある。
MS COCO における定量的結果は FuseDream (k=5/256) IS=34.26, FID=21.16, CLIP R-prec=96.43, R-prec=65.56; (k=10/256) IS=34.67, FID=21.89, CLIP R-prec=98.46, R-prec=66.06; (k=5/512) IS=34.19, FID=21.52, CLIP R-prec=98.38, R-prec=63.67; (k=10/512) IS=32.88, FID=25.24, CLIP R-prec=98.44, R-prec=63.80。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。