[論文レビュー] Leaving Reality to Imagination: Robust Classification via Generated Datasets
Stable Diffusion から生成されたデータを用いた実データの訓練は、自然分布シフトに対する精度と実効ロバスト性を改善し、標準的なデータ拡張のみより優れている。
Recent research on robustness has revealed significant performance gaps between neural image classifiers trained on datasets that are similar to the test set, and those that are from a naturally shifted distribution, such as sketches, paintings, and animations of the object categories observed during training. Prior work focuses on reducing this gap by designing engineered augmentations of training data or through unsupervised pretraining of a single large model on massive in-the-wild training datasets scraped from the Internet. However, the notion of a dataset is also undergoing a paradigm shift in recent years. With drastic improvements in the quality, ease-of-use, and access to modern generative models, generated data is pervading the web. In this light, we study the question: How do these generated datasets influence the natural robustness of image classifiers? We find that Imagenet classifiers trained on real data augmented with generated data achieve higher accuracy and effective robustness than standard training and popular augmentation strategies in the presence of natural distribution shifts. We analyze various factors influencing these results, including the choice of conditioning strategies and the amount of generated data. Additionally, we find that the standard ImageNet classifiers suffer a performance degradation of upto 20\% on the generated data, indicating their fragility at accurately classifying the objects under novel variations. Lastly, we demonstrate that the image classifiers, which have been trained on real data augmented with generated data from the base generative model, exhibit greater resilience to natural distribution shifts compared to the classifiers trained on real data augmented with generated data from the finetuned generative model on the real data. The code, models, and datasets are available at https://github.com/Hritikbansal/generative-robustness.
研究の動機と目的
- 自然にシフトしたデータセット(例:スケッチ、レンダリング)での評価時にロバストネスのギャップを動機づける。
- 最新の現場型生成モデルが分類器のロバストネスに与える影響を調査する。
- 実データ、生成データ、および混合データで ImageNet と自然分布シフトデータセットを評価する。
- ロバストネスと精度に対する条件付け戦略、データセットサイズの効果、生成テンプレートを分析する。
- 再現性のあるベンチマークのために、ベースデータセット/生成データセットとコードを公開する。
提案手法
- ImageNet クラスラベルを様々なテキストテンプレートを用いて条件付けした Stable Diffusion を用い、1.3M 枚の大規模合成データセットを生成する。
- 合成データセットを実データ ImageNet-1K の訓練データに追加して、分類器をゼロから訓練する。
- 自然分布シフトデータセット(ImageNet-Sketch, ImageNet-R, ImageNet-V2, ObjectNet)で評価し、実データのみおよび生成データのみの訓練と比較する。
- ゼロショット生成と手作業での拡張、および潜在拡散モデルを比較して、多様性と有効性を評価する。
- データ生成戦略(テンプレート、実画像、混合)の分析と、それが精度と実効ロバスト性(ER)に与える影響を評価する。
- ロバストネスのベンチマーキングの基準として、ベース/生成データセットとコードを公開する。
実験結果
リサーチクエスチョン
- RQ1実データと生成データを混ぜると、自然分布シフトデータセットでの精度と実効ロバスト性が改善されるか。
- RQ2生成戦略(テキストテンプレート、実画像による条件付け、あるいはそれらの混合)はロバストネスと精度にどう影響するか。
- RQ3生成データのサイズが実データに対してERと精度に与える影響はどの程度か。
- RQ4実データでジェネレータをファインチューニングすると、シフト分布に対するロバストネスは改善するか。
- RQ5生成データセットは既存の ImageNet 分类子の合成シフトのベンチマークとして有効か。
主な発見
| モデル | Im-スケッチ | Im-R | Im-V2 | ObjectNet | 平均 |
|---|---|---|---|---|---|
| Generated Data | 37.8 | 45.3 | 9.1 | 49.9 | 35.6 |
| Real + Generated Data | 14.9 | 16.7 | 0.5 | 2.3 | 8.6 |
- 実データに生成データを追加して訓練すると、実データのみまたは生成データのみの訓練と比較して、絶対精度が等しいか高く、自然分布シフトデータセットでのロバスト性が高くなる。
- 生成データのみでは実効ロバスト性は向上するが絶対精度が低下することが多く、実データ+生成データの混合は有利なバランスを提供する。
- 多様なテンプレートを用いたクラスラベルベースの生成は、単一テンプレートのプロンプトよりも優れており、訓練のロバストネスに近いベスト戦略となる。
- 標準的な ImageNet 分類器は生成データで最大約20%の劣化を示し、新規変動に対して脆弱であるが、混合訓練はこのギャップを軽減する。
- ゼロショット CLIP 条件付けは、ジェネレータのドメイン適応なしで強いロバストネスを示し、実データと混ぜると実データ/生成データの両方で高い精度を達成できる。
- ジェネレータを実データでファインチューニングすると分布ギャップは縮まるが、ベース生成データを拡張に用いる場合ほどの精度向上には至らないことがある。
- 生成データ量を増やすと一般に ER が増加し、計算リソース予算の下でより大きな合成データセットがロバストネスを高める可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。