[論文レビュー] Image retrieval outperforms diffusion models on data augmentation
この研究は拡散モデルベースのデータ拡張を、DMのトレーニングデータからの単純な最近傍取得ベースラインと比較し、データ不足条件下でImagenetでの下流分類性能において取得がしばしばより強い成果をもたらすことを見出した。拡散モデルの個別化は効果的だが取得には及ばない。
Many approaches have been proposed to use diffusion models to augment training datasets for downstream tasks, such as classification. However, diffusion models are themselves trained on large datasets, often with noisy annotations, and it remains an open question to which extent these models contribute to downstream classification performance. In particular, it remains unclear if they generalize enough to improve over directly using the additional data of their pre-training process for augmentation. We systematically evaluate a range of existing methods to generate images from diffusion models and study new extensions to assess their benefit for data augmentation. Personalizing diffusion models towards the target data outperforms simpler prompting strategies. However, using the pre-training data of the diffusion model alone, via a simple nearest-neighbor retrieval procedure, leads to even stronger downstream performance. Our study explores the potential of diffusion models in generating new training data, and surprisingly finds that these sophisticated models are not yet able to beat a simple and strong image retrieval baseline on simple downstream vision tasks.
研究の動機と目的
- データが乏しい条件下での下流の画像分類に対する拡散モデルベースのデータ拡張手法の有効性を評価する。
- 拡散モデル(DM)ベースの拡張戦略の範囲と取得ベースラインを系統的にベンチマークする。
- プロンプトベースの手法を超えて、拡散モデルの個別化が拡張の品質を改善するかどうかを評価する。
提案手法
- 10% ImageNetのサブセットで、条件なし生成、プロンプト条件付け、微調整による個別化など、拡散モデルベースの拡張手法をベンチマークする。
- これらの手法を、クラスプロンプトに最も近い拡散モデルの事前学習データ(Laion 5b)から画像を選択する取得ベースラインと比較する。CLIP風の埋め込み空間を用いて。
- 拡張データで訓練したResNet-50を用いて下流の精度を評価する。
- 結果の一般化を検証するため、完全なImageNetとCaltech256に評価を拡張する。
- プロンプト、条件付け、および個別化効果を分析することによって、多様性とドメイン整合性を制御する。
実験結果
リサーチクエスチョン
- RQ1拡散モデルベースの拡張手法は、DMの事前学習データからの単純な最近傍取得ベースラインを上回るか?
- RQ2プロンプトベースの条件付けや拡散モデルの個別化は、取得の性能との差を縮められるか?
- RQ310% ImageNetサブセットでの発見は、フルImagenetおよびCaltech256のような他のデータセットにも一般化するか?
- RQ4DMベースの拡張と取得ベースの拡張との間の計算量とデータ品質のトレードオフは何か?
主な発見
- 拡散モデルベースの拡張は、未拡張の10% ImageNetベースラインを上回るが、DMの訓練データ(Laion 5b)からの最近傍取得には及ばない。
- 単純な取得ベースラインが、評価した手法の中で最良の下流Top-1精度を示す(Retrieval: 62.6% ±0.1 on 10% ImageNet)。
- プロンプトベースの条件付けは、基本的なプロンプトを上回るが取得には及ばない。
- 拡散モデルの個別化(条件付けの微調整、クラスタリング条件付け、テキスト反転、DM微調整)はDMベースの拡張をさらに改善するが、それでも取得を打ち負かすには至らない。
- 結果はフルImageNetおよびCaltech256にも一般化し、取得は高い性能と効率の利点を維持する。
- 取得は計算的に効率的で、大規模データセットのダウンロードや訓練を必要としない。検索インデックスと最近傍画像に依存する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。