[論文レビュー] Is synthetic data from generative models ready for image recognition?
この論文は、テキストから画像モデル(GLIDE)による合成画像を、ゼロショット、少数ショット、および事前学習設定で画像認識のために評価し、言語強化、CLIPベースのフィルタリング、およびソフトターゲット学習を導入して性能を向上させる。
Recent text-to-image generation models have shown promising results in generating high-fidelity photo-realistic images. Though the results are astonishing to human eyes, how applicable these generated images are for recognition tasks remains under-explored. In this work, we extensively study whether and how synthetic images generated from state-of-the-art text-to-image generation models can be used for image recognition tasks, and focus on two perspectives: synthetic data for improving classification models in data-scarce settings (i.e. zero-shot and few-shot), and synthetic data for large-scale model pre-training for transfer learning. We showcase the powerfulness and shortcomings of synthetic data from existing generative models, and propose strategies for better applying synthetic data for recognition tasks. Code: https://github.com/CVMI-Lab/SyntheticData.
研究の動機と目的
- 最先端のテキスト-to-画像モデルから生成された合成データがゼロショットおよび少数ショットの画像認識を改善できるかを評価する。
- 合成データが大規模モデルの事前学習と転移学習に有用かを調査する。
- 認識タスクの多様性を高め、ノイズを低減し、生成を導く戦略を提案する。
提案手法
- 下流タスクのためのラベル付きデータを合成するテキスト-to-画像ジェネレータとしてGLIDEを使用する。
- T5ベースのモデルを用いてプロンプトを多様化する言語強化(LE)を採用する。
- 低品質の合成サンプルを除去するためにCLIPベースのフィルタリング(CF)を適用する。
- ラベルノイズを軽減するためにソフトターゲット交差エントロピー(SCE)を試す。
- 事前学習済みエンコーダ空間を保持するために分類器の重みのみを調整する(CT)。
- CLIPバックボーンを用いてゼロショット、少数ショット、および事前学習のパラダイムを比較する。
実験結果
リサーチクエスチョン
- RQ1テキスト-to-画像モデルからの合成データは多様なデータセットでゼロショットの画像認識を改善できるか?
- RQ2合成データは少数ショット学習を後押しし、新しい最先端の結果を達成できるか、そしてこれは実データの利用可能性にどう依存するか?
- RQ3合成データは大規模な事前学習と転移学習に適しているか、ラベル空間とバックボーンの選択が結果にどのように影響するか?
- RQ4多様性(LE)と信頼性(CF, SCE)戦略は、合成データとともにパフォーマンスにどのように影響するか?
主な発見
| Dataset | Task | CLIP-RN50 | CLIP-RN50+SYN | CLIP-ViT-B/16 | CLIP-ViT-B/16+SYN | |
|---|---|---|---|---|---|---|
| CIFAR-10 | o | 70.31 | 80.06 (+9.75) | 90.80 | 92.37 (+1.57) | |
| CIFAR-100 | o | 35.35 | 45.69 (+10.34) | 68.22 | 70.71 (+2.49) | |
| Caltech101 | o | 86.09 | 87.74 (+1.65) | 92.98 | 94.16 (+1.18) | |
| Caltech256 | o | 73.36 | 75.74 (+2.38) | 80.14 | 81.43 (+1.29) | |
| ImageNet | o | 60.33 | 60.78 (+0.45) | 68.75 | 69.16 (+0.41) | |
| SUN397 | s | 58.51 | 60.07 (+1.56) | 62.51 | 63.79 (+1.28) | |
| Aircraft | f | 17.34 | 21.94 (+4.60) | 24.81 | 30.78 (+5.97) | |
| Birdsnap | f | 34.33 | 38.05 (+3.72) | 41.90 | 46.84 (+4.94) | |
| Cars | f | 55.63 | 56.93 (+1.30) | 65.23 | 66.86 (+1.63) | |
| CUB | f | 46.69 | 56.94 (+10.25) | 55.23 | 63.79 (+8.56) | |
| Flower | f | 66.08 | 67.05 (+0.97) | 71.30 | 72.60 (+1.30) | |
| Food | f | 80.34 | 80.35 (+0.01) | 88.75 | 88.83 (+0.08) | |
| Pets | f | 85.80 | 86.81 (+1.01) | 89.10 | 90.41 (+1.31) | |
| DTD | t | 42.23 | 43.19 (+0.96) | 44.39 | 44.92 (+0.53) | |
| EuroSAT | si | 37.51 | 55.37 (+17.86) | 47.77 | 59.86 (+12.09) | |
| ImageNet-Sketch | r | 33.29 | 36.55 (+3.26) | 46.20 | 48.47 (+2.27) | |
| ImageNet-R | r | 56.16 | 59.37 (+3.21) | 74.01 | 76.41 (+2.40) | |
| Average | / | / | 55.13 | 59.47 (+4.31) | 65.42 | 68.32 (+2.90) |
- ゼロショット設定では、合成データは平均トップ-1の利得を4.31%(CLIP-RN50)にもたらし、EuroSATで最大17.86%を達成。
- 言語強化プロンプト(LE)は多様性を高め、通常はゼロショット精度を改善する。特にCLIPフィルタリング(CF)とソフトターゲット交差エントロピー(SCE)と組み合わせた場合に効果的。
- 少数ショット設定では合成データが顕著な利得をもたらし、新たな最先端結果を達成できる;リアルデータが増えると利点は減少し、リアルデータによる生成指針(RG)はさらに結果を改善。
- 事前学習については、特にViTバックボーンでImageNet-1Kの事前学習と互換性がある、または上回る可能性があり、下流のラベル空間(IN-2K)の拡大から恩恵を受ける。
- Phase-wise対比と混合訓練では、少数ショットのタスクで混合訓練がより良いパフォーマンスを示し、低データ regimeではバッチ正規化の凍結が役立つ。
- 合成による事前学習は実データで事前訓練された重みから初期化された場合に最も効果的であり、実データが不足しているときに隙間を埋めることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。