[논문 리뷰] A Survey on Data Augmentation in Large Model Era
이 논문은 대형 모델(LLMs 및 확산 모델)을 활용한 데이터 증강 방법에 대한 포괄적 조사로, 이미지, 텍스트, 페어 데이터로 분류하고 데이터 후처리 및 NLP, CV, 오디오 분야의 응용까지 다룬다. 또한 도전과제와 미래 방향을 논의하며 오픈 소스 리소스를 유지한다.
Large models, encompassing large language and diffusion models, have shown exceptional promise in approximating human-level intelligence, garnering significant interest from both academic and industrial spheres. However, the training of these large models necessitates vast quantities of high-quality data, and with continuous updates to these models, the existing reservoir of high-quality data may soon be depleted. This challenge has catalyzed a surge in research focused on data augmentation methods. Leveraging large models, these data augmentation techniques have outperformed traditional approaches. This paper offers an exhaustive review of large model-driven data augmentation methods, adopting a comprehensive perspective. We begin by establishing a classification of relevant studies into three main categories: image augmentation, text augmentation, and paired data augmentation. Following this, we delve into various data post-processing techniques pertinent to large model-based data augmentation. Our discussion then expands to encompass the array of applications for these data augmentation methods within natural language processing, computer vision, and audio signal processing. We proceed to evaluate the successes and limitations of large model-based data augmentation across different scenarios. Concluding our review, we highlight prospective challenges and avenues for future exploration in the field of data augmentation. Our objective is to furnish researchers with critical insights, ultimately contributing to the advancement of more sophisticated large models. We consistently maintain the related open-source materials at: https://github.com/MLGroup-JLU/LLM-data-aug-survey.
연구 동기 및 목표
- 대형 모델 기반 데이터 증강 연구를 이미지, 텍스트, 페어 데이터 범주로 분류합니다.
- 대형 모델(상위-k, 모델 기반, 점수 기반, 클러스터 기반 등)과 함께 사용하는 데이터 후처리 기술을 검토합니다.
- NLP, CV, 오디오에서 LLM과 확산 모델을 이용한 데이터 증강의 응용을 조사합니다.
- 성공과 한계 및 향후 도전을 식별하여 향후 연구를 안내합니다.
제안 방법
- 세 가지 차원에 걸친 구조적 분류학: 접근 방식(이미지, 텍스트, 페어 데이터), 데이터 후처리, 응용.
- 대형 모델(LLMs 및 확산 모델)이 증강을 가능하게 하는 방법 요약.
- 이미지, 텍스트 및 다중모달 프롬프트 주도 및 주제 주도 증강 방법 논의.
- 시나리오별 성공과 한계를 평가하고 향후 방향 제안.
- 대형 모델 데이터 증강 관련 오픈 소스 리소스 및 벤치마크 제공.
실험 결과
연구 질문
- RQ1이미지, 텍스트, 페어 데이터 전반에 걸친 주요 대형모델 기반 데이터 증강 방법은 무엇인가?
- RQ2LLMs와 확산 모델은 NLP, CV, 오디오에서 데이터 증강에 어떻게 기여하는가?
- RQ3대형모델 증강에 수반되는 데이터 후처리 기법은 무엇이며 그 효과는 무엇인가?
- RQ4대형모델 기반 데이터 증강의 현 응용, 도전과제 및 미래 방향은 무엇인가?
주요 결과
- 본 연구는 접근 방식, 후처리, 응용에 걸친 대형모델 기반 데이터 증강의 포괄적 분류체계를 제시한다.
- 대형 모델은 의미 이해 및 생성 능력을 활용해 전통적 방법보다 더 풍부하고 다양한 증강을 가능하게 한다.
- 본 조사는 NLP, CV, 오디오 업무에서 대형모델 증강의 성공과 한계를 식별한다.
- 증강 데이터 평가를 위한 프로토콜, 벤치마크 및 품질 지표를 논의하고 이 분야의 큰 도전 과제를 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.