Skip to main content
QUICK REVIEW

[论文解读] A Survey on Data Augmentation in Large Model Era

Yue Zhou, Chenlu Guo|arXiv (Cornell University)|Jan 27, 2024
Big Data Technologies and Applications被引用 7
一句话总结

本文对利用大模型(LLMs 与扩散模型)的数据增强方法进行了详尽的综述,按图像、文本和成对数据进行分类,并涵盖数据后处理与在 NLP、计算机视觉和音频领域的应用。同时讨论面临的挑战、未来方向,并提供开源资源。

ABSTRACT

Large models, encompassing large language and diffusion models, have shown exceptional promise in approximating human-level intelligence, garnering significant interest from both academic and industrial spheres. However, the training of these large models necessitates vast quantities of high-quality data, and with continuous updates to these models, the existing reservoir of high-quality data may soon be depleted. This challenge has catalyzed a surge in research focused on data augmentation methods. Leveraging large models, these data augmentation techniques have outperformed traditional approaches. This paper offers an exhaustive review of large model-driven data augmentation methods, adopting a comprehensive perspective. We begin by establishing a classification of relevant studies into three main categories: image augmentation, text augmentation, and paired data augmentation. Following this, we delve into various data post-processing techniques pertinent to large model-based data augmentation. Our discussion then expands to encompass the array of applications for these data augmentation methods within natural language processing, computer vision, and audio signal processing. We proceed to evaluate the successes and limitations of large model-based data augmentation across different scenarios. Concluding our review, we highlight prospective challenges and avenues for future exploration in the field of data augmentation. Our objective is to furnish researchers with critical insights, ultimately contributing to the advancement of more sophisticated large models. We consistently maintain the related open-source materials at: https://github.com/MLGroup-JLU/LLM-data-aug-survey.

研究动机与目标

  • 将基于大模型的数据增强研究分为图像、文本和成对数据三类。
  • 综述与大模型相关的数据后处理技术(top-k、基于模型、基于分数、基于聚类等)。
  • 调查在 NLP、CV 和音频领域中使用 LLMs 与扩散模型进行数据增强的应用。
  • 识别成功经验、局限性及未来挑战,为未来研究提供指引。

提出的方法

  • 在三个维度上构建结构化分类法:方法(图像、文本、成对数据)、数据后处理和应用。
  • 总结大模型(LLMs 与扩散模型)如何实现数据增强。
  • 讨论图像、文本和多模态提示驱动与主题驱动的增强方法。
  • 评估不同情景下的成就与局限,并提出未来方向。
  • 提供与大模型数据增强相关的开源资源与基准。

实验结果

研究问题

  • RQ1在图像、文本和成对数据领域,主要的基于大模型的数据增强方法有哪些?
  • RQ2LLMs 与扩散模型如何为 NLP、CV 与音频领域的数据增强做出贡献?
  • RQ3伴随大模型数据增强的数据后处理技术有哪些,它们的效果如何?
  • RQ4基于大模型的数据增强的当前应用、挑战与未来方向是什么?

主要发现

  • 研究提供了覆盖方法、后处理和应用的大模型数据增强的综合分类法。
  • 大型模型通过利用语义理解和生成能力,使数据增强比传统方法更加丰富多样。
  • 该综述识别了在 NLP、CV 和音频任务中基于大模型的增强的成功与局限。
  • 它讨论了评估增强数据的协议、基准和质量指标,并概述了该领域的重大挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。