Skip to main content
QUICK REVIEW

[论文解读] Rethinking Global Text Conditioning in Diffusion Transformers

Nikita Starodubcev, Daniil Pakhomov|arXiv (Cornell University)|Feb 9, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

论文表明在传统用法下 pooled 全局文本嵌入对效果影响有限,但在扩散变换器中以动态、无训练的方式应用时,能对文本到图像/视频生成与编辑任务提供强有力的调制引导效应。

ABSTRACT

Diffusion transformers typically incorporate textual information via attention layers and a modulation mechanism using a pooled text embedding. Nevertheless, recent approaches discard modulation-based text conditioning and rely exclusively on attention. In this paper, we address whether modulation-based text conditioning is necessary and whether it can provide any performance advantage. Our analysis shows that, in its conventional usage, the pooled embedding contributes little to overall performance, suggesting that attention alone is generally sufficient for faithfully propagating prompt information. However, we reveal that the pooled embedding can provide significant gains when used from a different perspective-serving as guidance and enabling controllable shifts toward more desirable properties. This approach is training-free, simple to implement, incurs negligible runtime overhead, and can be applied to various diffusion models, bringing improvements across diverse tasks, including text-to-image/video generation and image editing.

研究动机与目标

  • 评估基于 CLIP 的 pooled 全局文本条件化与基于注意力的条件在扩散变换器中的实际贡献差异。
  • 研究作为无训练、轻量化方法的调制引导,以引导扩散模型朝向期望属性。
  • 开发动态调制策略以在文本到图像、文本到视频和图像编辑任务中提升生成质量。
  • 展示将 pooled 嵌入集成到完全基于注意力的模型中的实际做法以提升性能。

提出的方法

  • 通过消融(移除或保留 CLIP 嵌入)分析 CLIP pooled 嵌入在多种扩散模型变体(FLUX schnell、HiDream-Fast、COSMOS)中的作用。
  • 引入一种调制空间引导公式,用带权重的正负提示差来增强全局条件 y(p,t): ŷ(p,t)=y(p,t)+w·(y(p+,t)−y(p−,t))。
  • 提出动态调制引导,在模型层之间变化引导权重,并使用跳跃策略在美学与提示保真度之间取得平衡。
  • 通过在 pooled 嵌入之上训练一个小型多层感知机并进行合成数据蒸馏,将 pooled 嵌入整合到无 CLIP 的模型中。
  • 在文本到图像、文本到视频以及指令引导的图像编辑任务上使用人工偏好和自动指标进行评估。
Figure 1: (top) Difference between images (DreamSim) with and without CLIP as a function of prompt length. (bot) For long prompts, images without CLIP generally do not differ from the initial ones.
Figure 1: (top) Difference between images (DreamSim) with and without CLIP as a function of prompt length. (bot) For long prompts, images without CLIP generally do not differ from the initial ones.

实验结果

研究问题

  • RQ1当在传统扩散模型条件路径中使用 pooled CLIP 嵌入时,是否显著影响生成质量?
  • RQ2是否能将 pooled 嵌入改造成可控的调制引导,以在不额外训练的情况下提高美学、复杂性和特定编辑效果?
  • RQ3动态调制引导是否在各种任务和提示中比恒定引导更有效?
  • RQ4在不重新训练整个模型的情况下,将调制引导整合到没有 CLIP 的模型中是否能够提升性能?
  • RQ5在文本到图像、文本到视频以及指令引导的图像编辑基准上,调制引导的表现如何?

主要发现

  • 在传统条件路径中, pooled CLIP 嵌入对性能的贡献通常很小,注意力本身通常已足以实现文本对齐。
  • 当用作调制引导时, pooled 嵌入能显著帮助生成,使模型在不训练的前提下实现对期望属性的可控偏移。
  • 动态调制引导在平衡美学与提示保真度方面优于恒定引导,且对多任务具有稳健的泛化性。
  • 通过一个小型 MLP 与蒸馏在合成数据上的训练,将 pooled 嵌入整合到无 CLIP 模型中,提升了生成质量而无需重新训练基础模型。
  • 实验在文本到图像/视频和图像编辑任务中显示出收益,包括对象计数和手部校正的改进,以及有利的人类与自动指标结果。
Figure 2: The modulation guidance enables local (top) and global (bottom) changes and encourages its use to shift a DM toward modes with better properties.
Figure 2: The modulation guidance enables local (top) and global (bottom) changes and encourages its use to shift a DM toward modes with better properties.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。