[论文解读] PureCC: Pure Learning for Text-to-Image Concept Customization
PureCC 引入解耦学习目标和双分支管道,在文本到图像生成中学习个性化概念,同时保留原模型的行为与 capabilities。它使用带自适应引导的冻结表示提取器以实现纯概念定制。
Existing concept customization methods have achieved remarkable outcomes in high-fidelity and multi-concept customization. However, they often neglect the influence on the original model's behavior and capabilities when learning new personalized concepts. To address this issue, we propose PureCC. PureCC introduces a novel decoupled learning objective for concept customization, which combines the implicit guidance of the target concept with the original conditional prediction. This separated form enables PureCC to substantially focus on the original model during training. Moreover, based on this objective, PureCC designs a dual-branch training pipeline that includes a frozen extractor providing purified target concept representations as implicit guidance and a trainable flow model producing the original conditional prediction, jointly achieving pure learning for personalized concepts. Furthermore, PureCC introduces a novel adaptive guidance scale $λ^\star$ to dynamically adjust the guidance strength of the target concept, balancing customization fidelity and model preservation. Extensive experiments show that PureCC achieves state-of-the-art performance in preserving the original behavior and capabilities while enabling high-fidelity concept customization. The code is available at https://github.com/lzc-sg/PureCC.
研究动机与目标
- 在不降低原始模型行为和能力的前提下推动概念定制。
- 在微调过程中将目标概念引导与原始模型预测解耦。
- 开发一个带冻结提取器和可训练预测器的双分支训练管道。
- 引入逐层可调嵌入以更好地表示目标概念。
- 提出自适应引导尺度以在保真度和保留之间取得平衡。
提出的方法
- 使用基于预训练流模型的表示提取器,在自定义集合上通过 LoRA 进行微调。
- 引入逐层可调概念嵌入以替换提示嵌入每一层中的 [V]。
- 形式化一个解耦学习目标,其中 v_t^PureCC = v_t^original + lambda * v_t^target。
- 将 v_t^target 定义为来自冻结提取器的表示偏差(目标文本与空条件之间的差异)。
- 训练一个双分支管道:一个提供隐式引导的冻结表示提取器,和一个可训练的流模型用于预测原始条件输出。
- 通过将可训练表示投影到目标引导表示上来计算自适应引导尺度 lambda*,以在保真度和保留之间取得平衡。
实验结果
研究问题
- RQ1如何在对原始模型行为影响最小的前提下实现概念定制?
- RQ2解耦目标函数和双分支架构是否能实现目标概念的纯学习?
- RQ3在训练过程中应如何自适应引导强度以平衡个性化和保留?
- RQ4逐层概念嵌入是否能改善目标概念表示及后续微调?
- RQ5PureCC 对实例与风格概念定制在保真度与模型保留方面的影响?
主要发现
- PureCC 在保持原始模型行为的同时实现高保真概念定制,达到最先进的保留水平。
- 带冻结提取器和可训练预测器的双分支设置可保留原始能力并提供有效的隐式引导。
- 自适应引导尺度 lambda* 在概念保真度与模型保留之间取得平衡,优于固定尺度方法。
- 具有逐层可调嵌入的表示提取器能提供更丰富的目标概念表示。
- PureCC 在单一与多概念定制方面均表现出强劲的性能,包括风格-实例混合情形。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。