Skip to main content
QUICK REVIEW

[论文解读] Visual Disentangled Diffusion Autoencoders: Scalable Counterfactual Generation for Foundation Models

Sidney Bender, Marco Morik|arXiv (Cornell University)|Jan 29, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

DiDAE 是一个不依赖梯度的框架,它用一个解耦字典封装冻结的基础模型,以生成多样且语义上解耦的对抗事实,规模化地实现 CFKD 基于纠错虚假相关。

ABSTRACT

Foundation models, despite their robust zero-shot capabilities, remain vulnerable to spurious correlations and 'Clever Hans' strategies. Existing mitigation methods often rely on unavailable group labels or computationally expensive gradient-based adversarial optimization. To address these limitations, we propose Visual Disentangled Diffusion Autoencoders (DiDAE), a novel framework integrating frozen foundation models with disentangled dictionary learning for efficient, gradient-free counterfactual generation directly for the foundation model. DiDAE first edits foundation model embeddings in interpretable disentangled directions of the disentangled dictionary and then decodes them via a diffusion autoencoder. This allows the generation of multiple diverse, disentangled counterfactuals for each factual, much faster than existing baselines, which generate single entangled counterfactuals. When paired with Counterfactual Knowledge Distillation, DiDAE-CFKD achieves state-of-the-art performance in mitigating shortcut learning, improving downstream performance on unbalanced datasets.

研究动机与目标

  • 在不依赖标注组或梯度优化器的前提下,主动指出并解决基础模型中的虚假相关和 Clever Hans 式策略。
  • 提出 DiDAE 将基础模型嵌入向量解耦为语义方向,以实现快速、可解释的对抗编辑。
  • 展示通过 DiDAE-CFKD 对大型基础模型的可扩展纠错,并在非平衡数据上提升下游性能。
  • 提供与基线相比具竞争力甚至更高速度与质量的梯度无关生成能力。

提出的方法

  • 用可学习且可解释的解耦字典对冻结的基础编码器进行封装,将嵌入分解为语义方向。
  • 沿解耦方向扰动嵌入再通过扩散自编码器进行单前向解码以实现编辑。
  • 提供两种梯度无关的反事实算法:潜在空间中的成分反射与蒸馏决策边界反演。
  • 应用投影与 Counterfactual Knowledge Distillation (CFKD) 以缓解虚假相关,使用预聚类的教师以实现可扩展性。
  • 在合成的 Square 与 CelebA 数据集上评估,训练分布被污染,测量 NAFR、Gain 与反事实生成速度。

实验结果

研究问题

  • RQ1在不微调的前提下,是否可以为基础模型高效生成梯度无关且语义解耦的反事实?
  • RQ2解耦方向是否能够实现可扩展的 CFKD,超越基于梯度的基线在缓解捷径学习方面的表现?
  • RQ3DiDAE 派生的反事实对下游鲁棒性及在存在虚假相关时的平均分组性能有何影响?

主要发现

Dataset / ModelMethodNAFRGainCounterfactuals per second
Square / ResNet-18DiME6.00.0~0.02
Square / ResNet-18ACE0.00.0~0.02
Square / ResNet-18FastDiME6.58.8~2.95
Square / ResNet-18SCE36.088.8~0.02
Square / ResNet-18Procrustes-DiDAE (ours)17.582.6~64.18
Square / ResNet-18SVD-DiDAE (ours)17.575.7~64.18
Square / FoundationDiME6.00.0~0.02
Square / FoundationACE0.00.0~0.02
Square / FoundationFastDiME5.00.0~2.95
Square / FoundationProcrustes-DiDAE (ours)22.570.4~64.18
Square / FoundationSVD-DiDAE (ours)10.074.4~64.18
CelebA-Blond / ResNet-18DiME20.018.3~0.01
CelebA-Blond / ResNet-18ACE26.519.9~0.01
CelebA-Blond / ResNet-18FastDiME12.0-5.6~1.25
CelebA-Blond / ResNet-18SCE92.023.4~0.02
CelebA-Blond / OpenClip (ours)DiDAE (ours)49.038.5~12.04
CelebA-Blond / OpenClipOpenClip-DiDAE (ours)42.020.4~12.04
CelebA-Blond / OpenClipDiME10.524.4~0.01
CelebA-Blond / OpenClipACE11.531.5~0.01
CelebA-Blond / OpenClipFastDiME11.523.8~1.25
CelebA-Blond / OpenClipSCE11.523.8~?
  • 相较于基于梯度的基线,DiDAE 在反事实生成方面实现了数量级的速度提升(如最高可达每秒约 64 个反事实)。
  • DiDAE-CFKD 在 Square 与 CelebA 基准上达到最先进的平均分组准确率,超越 GroupDRO、DFR、P-ClArC、RR-ClArC 等方法。
  • 基于投影的修正和在基础模型探测中的 CFKD 增强均提升鲁棒性,且在多数设定中 CFKD 提供更大的增益。
  • 通过 Procrustes 或 SVD 识别的解耦分量与可解释属性对齐,使对抗编辑具备可控、语义性。
  • DiDAE 在非对抗性翻转率(NAFR)方面保持竞争力,同时在下游任务中实现显著的收益增加。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。