QUICK REVIEW

[論文レビュー] Understanding and Mitigating Copying in Diffusion Models

Gowthami Somepalli, Vasu Singla|arXiv (Cornell University)|May 31, 2023

Generative Adversarial Networks and Image Synthesis被引用数 17

ひとこと要約

本論文は、テキスト条件付き拡散モデルにおけるメモリ化を分析し、コピーはトレーニング画像の重複だけでなくキャプションの多様性が推進することを示す。さらに再現を緩和するための訓練時および推論時の戦略を提案している。

ABSTRACT

Images generated by diffusion models like Stable Diffusion are increasingly widespread. Recent works and even lawsuits have shown that these models are prone to replicating their training data, unbeknownst to the user. In this paper, we first analyze this memorization problem in text-to-image diffusion models. While it is widely believed that duplicated images in the training set are responsible for content replication at inference time, we observe that the text conditioning of the model plays a similarly important role. In fact, we see in our experiments that data replication often does not happen for unconditional models, while it is common in the text-conditional case. Motivated by our findings, we then propose several techniques for reducing data replication at both training and inference time by randomizing and augmenting image captions in the training set.

研究の動機と目的

テキストから画像への拡散モデルにおけるデータの記憶化の原因を、画像の重複を超えて調査する。
テスト時のコピーに対するキャプション条件付けの影響を定量化する。
訓練時および推論時におけるコピーを減らす緩和戦略を開発・評価する。

提案手法

基盤として Stable Diffusion v2.1 を用い、重複設定を変えた小規模データセット上で U-Net をファインチューニングする。
生成サンプルのデータセット類似度と FID を用いてメモリ化を評価する。
キャプション条件付けスタイルを変化させる（固定、クラスキャプション、BLIP生成、ランダム）ことで、条件付けが memorization に与える影響を調べる。
テキストエンコーダを訓練する（凍結 vs 微調整）ことで、条件付け強度が再現性に与える影響を評価する。
全重複と部分的な画像キャプションの重複を比較し、キャプションの多様性が memorization に与える影響を理解する。
訓練時および推論時に、複数キャプション、埋め込みノイズ、ランダムなキャプション置換などの緩和戦略を提案・検証する。

実験結果

リサーチクエスチョン

RQ1学習データにおけるデータ重複は、拡散モデルにおける再現性をどの程度説明できるか？
RQ2テスト時の拡散モデルにおける再現性は、テキスト条件付けによってどのように影響を受けるか？
RQ3訓練および/または推論時にキャプションの多様性を高めることで、画像品質を犠牲にせず記憶化を減らすことができるか？
RQ4生成性能を維持しつつコピーを最小化する訓練レジメンとデータ設定は何か？

主な発見

データの重複は再現性に寄与するが、特にテキスト条件付きモデルにおいて、テスト時のコピーを完全には説明しない。
キャプションの多様性は memorization に強く影響する。より多様またはランダムなキャプションは、画像内容との相関に応じて memorization を増減させる可能性がある。
部分的な重複（1つの画像に対する複数キャプション）は、全重複と比較してコピーを大幅に緩和し、しばしば FID の大幅な低下なしに抑制される。
訓練時の緩和策（特に複数キャプション）は、推論時の緩和策よりもコピーの低減に効果的で、生成品質への影響は最小限にとどまる。
キャプションが高度に特定的である場合、より長く訓練したりデータを増やしたりすると memorization が増加する可能性がある。モデル品質と memorization のトレードオフを浮き彫りにする。
画像の複雑さと条件付けは memorization に影響を与え、単純な画像ほど memorization が起こりやすい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。