[論文レビュー] ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models
この論文は、前学習済み拡散モデルから超高解像度画像を生成するチューニング不要の手法を示しており、再拡張と分散により畳み込みの受容野を動的に調整し、ノイズ低減ガイダンスを併用することで、再訓練なしに4096×4096までの解像度で忠実度を向上させる。
In this work, we investigate the capability of generating images from pre-trained diffusion models at much higher resolutions than the training image sizes. In addition, the generated images should have arbitrary image aspect ratios. When generating images directly at a higher resolution, 1024 x 1024, with the pre-trained Stable Diffusion using training images of resolution 512 x 512, we observe persistent problems of object repetition and unreasonable object structures. Existing works for higher-resolution generation, such as attention-based and joint-diffusion approaches, cannot well address these issues. As a new perspective, we examine the structural components of the U-Net in diffusion models and identify the crucial cause as the limited perception field of convolutional kernels. Based on this key observation, we propose a simple yet effective re-dilation that can dynamically adjust the convolutional perception field during inference. We further propose the dispersed convolution and noise-damped classifier-free guidance, which can enable ultra-high-resolution image generation (e.g., 4096 x 4096). Notably, our approach does not require any training or optimization. Extensive experiments demonstrate that our approach can address the repetition issue well and achieve state-of-the-art performance on higher-resolution image synthesis, especially in texture details. Our work also suggests that a pre-trained diffusion model trained on low-resolution images can be directly used for high-resolution visual generation without further tuning, which may provide insights for future research on ultra-high-resolution image and video synthesis.
研究の動機と目的
- 高解像度画像合成を、訓練解像度を超えてファインチューニングなしで実現する動機付け。
- 低解像度データで訓練された拡散モデルから高解像度画像をアップサンプリングする際の対象物の反復の構造的原因を特定する。
- 推論時に受容野を拡張するためのチューニング不要な再拡張戦略を提案する。
- 超高解像生成を可能にする分散畳み込みとノイズ減衰付き classifier-free ガイダンスを導入する。
- 複数の Stable Diffusion バージョンとテキストから動画モデルでの有効性を実証する。
提案手法
- 再発生の主な原因として受容野の制限を特定するために U-Net コンポーネントを解析する。
- 推論中に畳み込みの知覚域を動的に調整するための再拡張を導入する(分数的およびレイヤー/タイムステップ意識のスケジュールを含む)。
- 構造レベルおよびピクセルレベルの較正を通じて、訓練を維持しつつカーネルを拡大する分散畳み込みを提案する。
- ノイズ低減機能と高解像度コンテンツ生成のバランスを取るためのノイズ減衰型 classifier-free ガイダンスを開発する。
- 訓練不要のベースラインおよび拡散超解像モデルと比較し、FID/KID の定量的向上とテクスチャ・ディテールの改善を示す。
実験結果
リサーチクエスチョン
- RQ1低解像度データで訓練された pre-trained diffusion model が追加の訓練なしで plausibly な超高解像度画像を生成できるか?
- RQ2高解像度合成における対象物の反復問題は、主に注意トークン数ではなく畳み込み受容野の制限によるものか?
- RQ3推論時の再拡張とカーネル分散は retraining なしで受容野を効果的に拡大できるか?
- RQ4ノイズ減衰型 classifier-free ガイダンスは超高解像度での品質とテクスチャを改善するか?
- RQ5提案手法は異なる SD バージョンやテキストから動画設定でどのように性能を発揮するか?
主な発見
| Method | SD 1.5 FID r | SD 1.5 KID r | SD 1.5 FID b | SD 1.5 KID b | SD 2.1 FID r | SD 2.1 KID r | SD 2.1 FID b | SD 2.1 KID b | SD XL 1.0 FID r | SD XL 1.0 KID r | SD XL 1.0 FID b | SD XL 1.0 KID b |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Direct-Inf | 38.50 | 0.014 | 29.30 | 0.008 | 29.89 | 0.010 | 24.21 | 0.007 | 67.71 | 0.029 | 45.55 | 0.014 |
| Attn-SF | 38.59 | 0.013 | 29.30 | 0.008 | 28.95 | 0.010 | 22.75 | 0.007 | 68.93 | 0.028 | 46.07 | 0.013 |
| Ours | 32.67 | 0.012 | 24.93 | 0.007 | 20.88 | 0.008 | 16.67 | 0.005 | 64.75 | 0.024 | 28.15 | 0.009 |
| Direct-Inf | 55.47 | 0.020 | 48.54 | 0.015 | 52.58 | 0.018 | 48.13 | 0.014 | 93.91 | 0.041 | 54.90 | 0.020 |
| Attn-SF | 55.96 | 0.020 | 49.03 | 0.015 | 50.62 | 0.017 | 45.57 | 0.014 | 93.92 | 0.042 | 54.89 | 0.019 |
| Ours | 52.11 | 0.019 | 45.86 | 0.014 | 33.36 | 0.010 | 30.66 | 0.008 | 80.72 | 0.032 | 47.15 | 0.015 |
| Direct-Inf | 74.52 | 0.032 | 68.98 | 0.027 | 69.89 | 0.029 | 55.48 | 0.020 | 122.41 | 0.062 | 82.51 | 0.037 |
| Attn-SF | 74.42 | 0.032 | 68.81 | 0.027 | 68.97 | 0.029 | 53.97 | 0.020 | 122.21 | 0.062 | 82.35 | 0.037 |
| Ours | 58.21 | 0.022 | 52.76 | 0.017 | 58.57 | 0.021 | 49.41 | 0.015 | 119.58 | 0.057 | 50.70 | 0.019 |
| Direct-Inf | 111.34 | 0.046 | 106.70 | 0.042 | 104.70 | 0.043 | 104.10 | 0.040 | 153.33 | 0.070 | 144.99 | 0.061 |
| Attn-SF | 110.10 | 0.046 | 105.42 | 0.042 | 104.34 | 0.043 | 103.61 | 0.041 | 153.68 | 0.070 | 144.84 | 0.061 |
| Ours | 78.22 | 0.027 | 65.86 | 0.023 | 59.40 | 0.021 | 57.26 | 0.018 | 131.03 | 0.063 | 124.01 | 0.055 |
- 再拡張は畳み込みの受容野を効果的に改善し、高解像度での対象物の反復を抑制し構造を向上させる。
- 分散畳み込みは構造レベルおよびピクセルレベルの較正とともに、訓練なしで実効的な受容野を拡大し、より高い解像度を可能にする。
- 分数的・レイヤー/タイムステップ意識の再拡張スケジュールは、全レイヤー/ステップで固定拡張より良い結果をもたらす。
- ノイズ減衰型 classifier-free ガイダンスはデノイジングを維持しつつ高周波コンテンツを有効化し、テクスチャとディテールを改善する。
- 定量的結果は、4×、6.25×、8×、16×のアップサンプリングにおいて SD 1.5、2.1、XL 1.0 で Direct-Inf および Attn-SF より FID/KID を改善し、4×・6.25×・8×・16×のスケーリングで質感とディテールの定性的改善を示し、テキストから動画への適用にも成功する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。