QUICK REVIEW

[論文レビュー] Visual Disentangled Diffusion Autoencoders: Scalable Counterfactual Generation for Foundation Models

Sidney Bender, Marco Morik|arXiv (Cornell University)|Jan 29, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

DiDAE は、凍結された基盤モデルを分離可能な辞書でラップし、意味的にデタングルされた多様なカウンターファクチュアルをスケールで生成する勾配なしフレームワークで、CFKD ベースの偽相関の修正を効果的に行える。

ABSTRACT

Foundation models, despite their robust zero-shot capabilities, remain vulnerable to spurious correlations and 'Clever Hans' strategies. Existing mitigation methods often rely on unavailable group labels or computationally expensive gradient-based adversarial optimization. To address these limitations, we propose Visual Disentangled Diffusion Autoencoders (DiDAE), a novel framework integrating frozen foundation models with disentangled dictionary learning for efficient, gradient-free counterfactual generation directly for the foundation model. DiDAE first edits foundation model embeddings in interpretable disentangled directions of the disentangled dictionary and then decodes them via a diffusion autoencoder. This allows the generation of multiple diverse, disentangled counterfactuals for each factual, much faster than existing baselines, which generate single entangled counterfactuals. When paired with Counterfactual Knowledge Distillation, DiDAE-CFKD achieves state-of-the-art performance in mitigating shortcut learning, improving downstream performance on unbalanced datasets.

研究の動機と目的

ラベル付きグループや勾配ベースの最適化子に依存せず、基盤モデルに潜む偽相関と Clever Hans 戦略を動機づけて対処する。
基盤モデルの埋め込みを意味的な方向へ分離させ、迅速で解釈可能なカウンターファクチュアル編集を行う DiDAE を提案する。
DiDAE-CFKD を介して大規模な基盤モデルの修正をスケーラブルに実現し、不均衡データでの下流性能を改善する。
勾配なしでの生成を、基準法と比較して競争力のある速度と品質で提供する。

提案手法

凍結された基盤エンコーダを学習可能で解釈可能な分離辞書で包み、埋め込みを意味的方向へ分解する。
分離された方向に沿って埋め込みを摂動させ、拡散オートエンコーダで単一の前向き伝播ステップでデコードする。
2つの勾配なしカウンターファクチュアルアルゴリズムを提供する：潜在空間での成分反射と蒸留決定境界の反転。
射影と Counterfactual Knowledge Distillation (CFKD) を適用して偽相関を抑制し、スケーラビリティのために事前クラスタリングされた教師を用いる。
合成 Square および CelebA データセットで毒された学習分布を用いて評価し、NAFR、Gain、カウンターファクチュアル生成速度を測定する。

実験結果

リサーチクエスチョン

RQ1勾配なしで、ファインチューニングなしに基盤モデルの意味的にデタングルされたカウンターファクチュアルを効率的に生成できるか。
RQ2分離された方向は、勾配ベースのベースラインを上回るCFKDをスケーラブルに実現し、ショートカット学習を抑制できるか。
RQ3DiDAE由来のカウンターファクチュアルが偽相関下での下流のロバストネスと平均グループ性能に与える影響はどのようか。

主な発見

Dataset / Model	Method	NAFR	Gain	Counterfactuals per second
Square / ResNet-18	DiME	6.0	0.0	~0.02
Square / ResNet-18	ACE	0.0	0.0	~0.02
Square / ResNet-18	FastDiME	6.5	8.8	~2.95
Square / ResNet-18	SCE	36.0	88.8	~0.02
Square / ResNet-18	Procrustes-DiDAE (ours)	17.5	82.6	~64.18
Square / ResNet-18	SVD-DiDAE (ours)	17.5	75.7	~64.18
Square / Foundation	DiME	6.0	0.0	~0.02
Square / Foundation	ACE	0.0	0.0	~0.02
Square / Foundation	FastDiME	5.0	0.0	~2.95
Square / Foundation	Procrustes-DiDAE (ours)	22.5	70.4	~64.18
Square / Foundation	SVD-DiDAE (ours)	10.0	74.4	~64.18
CelebA-Blond / ResNet-18	DiME	20.0	18.3	~0.01
CelebA-Blond / ResNet-18	ACE	26.5	19.9	~0.01
CelebA-Blond / ResNet-18	FastDiME	12.0	-5.6	~1.25
CelebA-Blond / ResNet-18	SCE	92.0	23.4	~0.02
CelebA-Blond / OpenClip (ours)	DiDAE (ours)	49.0	38.5	~12.04
CelebA-Blond / OpenClip	OpenClip-DiDAE (ours)	42.0	20.4	~12.04
CelebA-Blond / OpenClip	DiME	10.5	24.4	~0.01
CelebA-Blond / OpenClip	ACE	11.5	31.5	~0.01
CelebA-Blond / OpenClip	FastDiME	11.5	23.8	~1.25
CelebA-Blond / OpenClip	SCE	11.5	23.8	~?

DiDAE は勾配ベースのベースラインと比較してカウンターファクチュアル生成のスピードを桁違いに向上させる（例：秒あたり最大 ~64 件のカウンターファクチュアル）。
DiDAE-CFKD は Square および CelebA ベンチマークで平均グループ精度の最先端を達成し、GroupDRO、DFR、P-ClArC、RR-ClArC を上回る。
射影ベースの修正とCFKD の拡張は基盤モデルのプロービングでロバストネスを向上させ、CFKD が多くの設定で優れたゲインを提供。
Procrustes または SVD を用いて同定された分離成分は解釈可能な属性と整列し、意味的カウンターファクチュアル編集をコントロール可能にする。
DiDAE は非敵対的なフリップ率（NAFR）を競争力を維持しつつ、下流タスクでのゲインを大幅に向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。