[论文解读] Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges
本综述分析大语言模型(LLMs)如何推动数据增强在数据视角、学习范式和关键挑战方面的进展,提供一个分类体系和未来方向。
In the rapidly evolving field of large language models (LLMs), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of LLMs on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From both data and learning perspectives, we examine various strategies that utilize LLMs for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for diverse forms of further training. Additionally, this paper highlights the primary open challenges faced in this domain, ranging from controllable data augmentation to multi-modal data augmentation. This survey highlights a paradigm shift introduced by LLMs in DA, and aims to serve as a comprehensive guide for researchers and practitioners.
研究动机与目标
- 从数据视角考察使用LLMs进行数据增强(数据创建、标注、改造、协注)。
- 探索使用LLM生成的数据在多样化训练形式中的学习范式(生成式和判别式)。
- 强调主要挑战(污染、可控数据增强、文化相关与多模态增强)并提出未来方向。
- 提供一个全面的分类体系和面向研究人员与从业者的实用指南。
提出的方法
- 给出基于LLMs的数据增强分类体系(数据视角与学习范式)。
- 回顾相关工作并将本综述相对于前LLM数据增强和指令微调/对齐研究定位。
- 总结数据视角研究:数据创建、标注、改造和协注。
- 详细介绍生成学习(监督式指令、上下文学习、对齐)和判别学习(伪标注、伪评分)。
- 讨论挑战(数据污染、可控数据增强、文化相关的DA、多模态DA)及未来方向。
实验结果
研究问题
- RQ1基于LLMs的数据增强的主要数据视角有哪些(创建、标注、改造、协注)?
- RQ2哪些学习范式(生成式与判别式)适用于LLM生成的数据增强,它们如何运作?
- RQ3在基于LLMs的数据增强中有哪些主要挑战,以及有哪些有前景的解决方向?
主要发现
- LLMs实现四种数据视角的数据增强策略:数据创建、标注、改造和协注。
- 基于LLMs的学习范式可以分为生成学习(指令微调、上下文学习、对齐)和判别学习(伪标注、伪评分)。
- 本综述编译了一个分类体系并参考跨任务和领域,强调跨语言、跨模态和文化感知增强的需求。
- 存在实际挑战,如数据污染、增强的可控性、文化感知的多语言考量,以及多模态数据整合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。