QUICK REVIEW

[논문 리뷰] Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges

Bosheng Ding, Chengwei Qin|arXiv (Cornell University)|2024. 03. 05.

Semantic Web and Ontologies인용 수 6

한 줄 요약

이 설문은 대형 언어 모델(LLMs)이 데이터 관점, 학습 패러다임, 핵심 도전 과제를 가로지르며 데이터 증강을 어떻게 발전시키는지 분석하고, 분류 체계와 향후 방향을 제시한다.

ABSTRACT

In the rapidly evolving field of large language models (LLMs), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of LLMs on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From both data and learning perspectives, we examine various strategies that utilize LLMs for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for diverse forms of further training. Additionally, this paper highlights the primary open challenges faced in this domain, ranging from controllable data augmentation to multi-modal data augmentation. This survey highlights a paradigm shift introduced by LLMs in DA, and aims to serve as a comprehensive guide for researchers and practitioners.

연구 동기 및 목표

데이터 관점에서 LLM을 사용한 데이터 증강을 조사한다(데이터 생성, 라벨링, 재형성, 공동 주석).
LLM이 생성한 데이터를 다양한 학습 형태에 활용하는 학습 패러다임을 탐구한다(생성적 및 판별적).
오염, 제어 가능한 DA, 문화 인식형 및 다중모달 증강 등 주요 도전 과제를 강조하고 향후 방향을 제시한다.
연구자와 실무자를 위한 포괄적인 분류 체계와 실용적인 지침을 제공한다.

제안 방법

LLMs를 활용한 데이터 증강의 분류 체계(데이터 관점 및 학습 패러다임)를 제시한다.
관련 연구를 조사하고 이 설문을 pre-LLM DA 및 지시 튜닝/정렬 연구에 비추어 위치시킨다.
데이터 관점 연구를 요약한다: 데이터 생성, 라벨링, 재형성, 공동 주석.
생성 학습(지도 학습 지시, 문맥 내 학습, 정렬) 및 판별 학습(가짜 라벨링, 가짜 점수 매기기)을 상세히 다룬다.
도전 과제(데이터 오염, 제어 가능한 DA, 문화 인식 DA, 다중모달 DA)와 향후 방향에 대해 논의한다.

실험 결과

연구 질문

RQ1LLM 기반 데이터 증강의 주요 데이터 관점은 무엇인가(생성, 라벨링, 재형성, 공동 주석)?
RQ2LLM 생성 데이터 증강에 적용되는 학습 패러다임(생성적 대 판별적)은 무엇이며 어떻게 작동하는가?
RQ3LLM 기반 데이터 증강의 주요 도전 과제와 이를 해결하기 위한 유망한 방향은 무엇인가?

주요 결과

LLMs은 네 가지 데이터 관점 증강 전략을 가능하게 한다: 데이터 생성, 라벨링, 재형성, 그리고 공동 주석.
LLM 기반 학습 패러다임은 생성 학습(지시 튜닝, 문맥 내 학습, 정렬)과 판별 학습(가짜 라벨링, 가짜 점수 매기기)으로 분류할 수 있다.
본 설문은 작업 및 도메인 전반의 분류 체계와 참고 문헌을 종합하고, 다언어 간, 다중모달 및 문화적으로 인식된 증강 필요성을 강조한다.
데이터 오염, 증강의 제어성, 문화 인식 다국어 고려사항, 다중모달 데이터 통합과 같은 실용적 도전이 존재한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.