Skip to main content
QUICK REVIEW

[論文レビュー] Text Data Augmentation for Large Language Models: A Comprehensive Survey of Methods, Challenges, and Opportunities

Yaping Chai, Haoran Xie|ArXiv.org|Jan 31, 2025
Topic Modeling被引用数 5
ひとこと要約

LLMのテキストデータ拡張を Simple、Prompt-based、Retrieval-based、Hybrid の4カテゴリに分類し、粒度、後処理、評価、課題について議論する総合的な調査。

ABSTRACT

The increasing size and complexity of pre-trained language models have demonstrated superior performance in many applications, but they usually require large training datasets to be adequately trained. Insufficient training sets could unexpectedly make the model overfit and fail to cope with complex tasks. Large language models (LLMs) trained on extensive corpora have prominent text generation capabilities, which improve the quality and quantity of data and play a crucial role in data augmentation. Specifically, distinctive prompt templates are given in personalised tasks to guide LLMs in generating the required content. Recent promising retrieval-based techniques further improve the expressive performance of LLMs in data augmentation by introducing external knowledge to enable them to produce more grounded-truth data. This survey provides an in-depth analysis of data augmentation in LLMs, classifying the techniques into Simple Augmentation, Prompt-based Augmentation, Retrieval-based Augmentation and Hybrid Augmentation. We summarise the post-processing approaches in data augmentation, which contributes significantly to refining the augmented data and enabling the model to filter out unfaithful content. Then, we provide the common tasks and evaluation metrics. Finally, we introduce existing challenges and future opportunities that could bring further improvement to data augmentation.

研究の動機と目的

  • 大規模言語モデルに対してデータ拡張がなぜ必要か、データ品質と不足が性能にどのように影響するかを説明する。
  • LLMsに用いられる拡張技法を、Simple、Prompt-based、Retrieval-based、Hybridの4カテゴリに体系的に分類する。
  • データ拡張の要素(生成、言い換え、翻訳、ラベリング、検索、編集など)と粒度(トークンから文書レベルまで)を論じる。
  • 今後の研究と実用を導くために、後処理、評価指標、実務上の課題を明らかにする。

提案手法

  • プロンプトの複雑さと検索モデルの複雑さを反映した4つのカテゴリに拡張技法を分類する。
  • 各カテゴリの代表的な手法を要約し、生成、言い換え、翻訳、ラベリング、検索、編集に留意する。
  • トークンから文書レベルまでのデータ拡張の粒度レベルと、それがデータ多様性と忠実度に与える影響を説明する。
  • 拡張データの品質を精緻化し、不正確な内容を減らすために用いられる後処理手法を提示する。
  • 拡張効果を評価するための共通タスクと評価指標を概説する。
  • 今後の研究方針に資する課題と機会を特定する。

実験結果

リサーチクエスチョン

  • RQ1LLMsのテキストデータ拡張の主なカテゴリは何で、それらは方法論と能力にどのように違いがあるか?
  • RQ2データ拡張の要素(生成、言い換え、翻訳、ラベリング、検索、編集)と粒度レベルは、拡張データの品質とモデル性能にどのように影響するか?
  • RQ3LLM文脈における拡張データに対して効果的な後処理と評価手法は何か?
  • RQ4LLMsのテキストデータ拡張における現在の課題と有望な機会は何か?

主な発見

  • 4つの主要な拡張カテゴリを同定: Simple Augmentation、Prompt-based Augmentation、Retrieval-based Augmentation、Hybrid Augmentation。
  • データ拡張は、生成、言い換え、翻訳、ラベリング、検索、編集など、複数の要素と粒度レベル(トークンから文書まで)にまたがる。
  • プロンプトエンジニアリングと検索強化技術はデータの多様性と根拠付けを共同で向上させ、後処理は幻覚や不正確な内容の軽減に寄与する。
  • データ品質、ファクト性の根拠付け、最新の外部知識源の必要性に関連する課題が継続的に存在し、いくつかの今後の方向性が提案されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。