[論文レビュー] A Survey on Data Augmentation in Large Model Era
この論文は、巨大モデル(LLMsと拡散モデル)を活用するデータ拡張手法の網羅的な調査を、画像、テキスト、ペアデータのカテゴリ、およびデータ後処理とNLP、CV、オーディオへの適用を含めて提供します。課題、将来の方向性についても論じ、オープンソースリソースを維持します。
Large models, encompassing large language and diffusion models, have shown exceptional promise in approximating human-level intelligence, garnering significant interest from both academic and industrial spheres. However, the training of these large models necessitates vast quantities of high-quality data, and with continuous updates to these models, the existing reservoir of high-quality data may soon be depleted. This challenge has catalyzed a surge in research focused on data augmentation methods. Leveraging large models, these data augmentation techniques have outperformed traditional approaches. This paper offers an exhaustive review of large model-driven data augmentation methods, adopting a comprehensive perspective. We begin by establishing a classification of relevant studies into three main categories: image augmentation, text augmentation, and paired data augmentation. Following this, we delve into various data post-processing techniques pertinent to large model-based data augmentation. Our discussion then expands to encompass the array of applications for these data augmentation methods within natural language processing, computer vision, and audio signal processing. We proceed to evaluate the successes and limitations of large model-based data augmentation across different scenarios. Concluding our review, we highlight prospective challenges and avenues for future exploration in the field of data augmentation. Our objective is to furnish researchers with critical insights, ultimately contributing to the advancement of more sophisticated large models. We consistently maintain the related open-source materials at: https://github.com/MLGroup-JLU/LLM-data-aug-survey.
研究の動機と目的
- 大規模モデル駆動のデータ拡張研究を、画像、テキスト、ペアデータのカテゴリに分類する。
- 大規模モデルとともに用いられるデータ後処理技術をレビューする(top-k、モデルベース、スコアベース、クラスタベース)。
- NLP、CV、オーディオにおけるLLMsと拡散モデルを用いたデータ拡張の適用を調査する。
- 成功事例と限界、将来の課題を特定し、今後の研究を指針とする。
提案手法
- 3次元にわたる構造化分類:アプローチ(画像、テキスト、ペアデータ)、データ後処理、適用。
- 大規模モデル(LLMsと拡散モデル)がどのようにデータ拡張を可能にするかを要約する。
- 画像、テキスト、マルチモーダルなプロンプト推動型および主題推動型のデータ拡張手法を検討する。
- シナリオ全体での成功と限界を評価し、将来の方向性を提案する。
- 大規模モデルデータ拡張に関連するオープンソース資源とベンチマークを提供する。
実験結果
リサーチクエスチョン
- RQ1画像、テキスト、ペアデータにおける主要な大規模モデル駆動データ拡張手法は何か?
- RQ2LLMsと拡散モデルはNLP、CV、オーディオにおけるデータ拡張にどう寄与するか?
- RQ3大規模モデル拡張に伴うデータ後処理技術は何か、それらの効果は?
- RQ4現在の適用、課題、将来の方向性は何か、巨大モデルベースのデータ拡張について。
主な発見
- 本研究は、アプローチ、後処理、適用にまたがる大規模モデルベースのデータ拡張の包括的分類を提示する。
- 大規模モデルは、意味理解と生成能力を活用することで、従来手法よりも豊かで多様なデータ拡張を可能にする。
- この調査は、NLP、CV、オーディオタスクにおける大規模モデル拡張の成功と限界を特定する。
- 拡張データの評価のためのプロトコル、ベンチマーク、品質指標を論じ、分野の大きな課題を概説する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。