[論文レビュー] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
GLIDEは3.5Bパラメータのテキスト条件付き拡散モデルを訓練し、 classifier-free と CLIP-guided sampling を比較する。結果、classifier-free ガイダンスの方がフォトリアリスティックでキャプション整合性の高い画像を生み出すことが示され、テキスト駆動のインペイント編集も実証される。また、安全性のためにフィルタリングされた小型モデルをリリース。
Diffusion models have recently been shown to generate high-quality synthetic images, especially when paired with a guidance technique to trade off diversity for fidelity. We explore diffusion models for the problem of text-conditional image synthesis and compare two different guidance strategies: CLIP guidance and classifier-free guidance. We find that the latter is preferred by human evaluators for both photorealism and caption similarity, and often produces photorealistic samples. Samples from a 3.5 billion parameter text-conditional diffusion model using classifier-free guidance are favored by human evaluators to those from DALL-E, even when the latter uses expensive CLIP reranking. Additionally, we find that our models can be fine-tuned to perform image inpainting, enabling powerful text-driven image editing. We train a smaller model on a filtered dataset and release the code and weights at https://github.com/openai/glide-text2im.
研究の動機と目的
- 拡大スケール(3.5Bパラメータ)の拡散モデルによるテキスト条件付き画像合成を進展させ、忠実度とキャプション整合性の指標を評価する。
- 拡散モデルを用いたテキスト駆動の画像編集とインペイントを実証する。
- 誤用リスクを軽減するためのデータフィルタリングと小型のフィルタ付きリリース variant を提供し、安全性を評価する。
提案手法
- 自然言語プロンプトに conditioned him 3.5Bパラメータのテキスト条件付き拡散モデルを訓練する。
- ノイズ化画像から拡散を制御する際の classifier-free ガイダンスと CLIP ガイダンスを比較する。
- テキスト駆動の編集を可能にするためのマスク条件付けによる画像インペインティングのためにモデルをファインチューニングする。
- データの悪用リスクを低減するため、クリーニングデータセット上でフィルタリングされた GLIDE(filtered)モデルを訓練する。
- ノイズ化された入力を用いた CLIP-guided 拡散を可能にするため、ノイズ化 CLIP モデルを訓練する。
実験結果
リサーチクエスチョン
- RQ1テキスト条件付き拡散において photorealism とキャプション類似性の点で、classifier-free ガイダンスは CLIP ガイダンスを上回るか。
- RQ2別個の分類器なしでの拭い出し可能な高品質なテキスト条件付き生成を拌淞制御で実現できるか。
- RQ3自然言語プロンプトによって駆動される画像のインペインティング/編集をモデルはどの程度うまく行えるか。
- RQ4デマ拡散や深屋fakeなどの悪用リスクを軽減する安全対策(データフィルタリング、より小さいフィルタ済みモデル)は有効か。
- RQ5GLIDEは人間評価において従来のテキスト-画像モデル(例:DALL-E)とどう比較されるか。
主な発見
| Table 1: Elo スコア(Photorealism, Caption) | Table 2: FID on MS-COCO 256x256 | Table 3: Human evaluation vs DALL-E (Photo realism, Caption) |
|---|---|---|
| 無指導 | -88.6 | -106.2 |
| CLIP ガイダンス | -73.2 | 29.3 |
| Classifier-free ガイダンス | 82.7 | 110.9 |
| GLIDE (256x256) - DALL-E 比較 | 12.24 | - |
| GLIDE (検証済みフィルタリング) | 12.89 | - |
| DALL-E No reranking | - | - |
| DALL-E reranked | - | - |
| GLIDE vs DALL-E (No reranking) | - | - |
| GLIDE vs DALL-E (DALL-E 再ランク) | - | - |
| GLIDE (フィルタ済み) 対 DALL-E | - | - |
- Classifier-free ガイダンスは、CLIP ガイダンスよりも高品質でフォトリアリスティックな画像とキャプション整合性を人間評価で示した。
- GLIDE が classifier-free ガイダンスでサンプルされる場合、DALL-E より人間研究で好まれる傾向があり(フォトリアリズム87%、特定設定でキャプション類似性69%)。
- GLIDE は MS-COCO の特訓なしで競争的な MS-COCO FID(12.24)を達成し、フィルター評価でも強力(12.89)。
- GLIDE は周囲のスタイルや照明に合わせたテキスト条件付きインペイントを可能にし、影や反射も再現。
- より小さいフィルタ済み GLIDE モデルをリリースして悪用リスクを低減。データフィルタリングにより人物や特定の暴力・憎悪コンテンツを除去。 red-teaming による検証ではフィルタ済データから認識可能な人間画像を生成する能力は限定的であることが示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。