[论文解读] Large Language Models for Data Annotation and Synthesis: A Survey
本综述分析大型语言模型(LLMs)如何用于数据标注和合成,涵盖方法、评估、使用LLM生成标注的学习,以及挑战。
Data annotation and synthesis generally refers to the labeling or generating of raw data with relevant information, which could be used for improving the efficacy of machine learning models. The process, however, is labor-intensive and costly. The emergence of advanced Large Language Models (LLMs), exemplified by GPT-4, presents an unprecedented opportunity to automate the complicated process of data annotation and synthesis. While existing surveys have extensively covered LLM architecture, training, and general applications, we uniquely focus on their specific utility for data annotation. This survey contributes to three core aspects: LLM-Based Annotation Generation, LLM-Generated Annotations Assessment, and LLM-Generated Annotations Utilization. Furthermore, this survey includes an in-depth taxonomy of data types that LLMs can annotate, a comprehensive review of learning strategies for models utilizing LLM-generated annotations, and a detailed discussion of the primary challenges and limitations associated with using LLMs for data annotation and synthesis. Serving as a key guide, this survey aims to assist researchers and practitioners in exploring the potential of the latest LLMs for data annotation, thereby fostering future advancements in this critical field.
研究动机与目标
- 推动在NLP任务中使用LLMs来自动化并改进数据标注。
- 提供基于LLM的数据标注方法学和提示策略的分类。
- 回顾在LLM生成的标注上训练的模型或使用LLM生成标注的模型的学习范式。
- 讨论针对LLM生成标注的评估技术以及如何选择高质量样本。
- 识别在部署LLMs用于数据标注时的挑战与伦理考量。
提出的方法
- 将LLMs作为标注者、传统模型作为学习者,定义标注者模型和任务学习者模型。
- 提出基于LLM的数据标注方法的分类法,包括人工设计的提示、通过成对反馈进行对齐,以及提示技术(IO、ICL、CoT、IT、AT)。
- 描述使用LLM生成标注进行学习的方法,包括直接使用、知识蒸馏,以及微调/提示方法。
- 讨论针对LLM生成标注的评估框架,包括人为主导和自动化方法,以及将LLMs用作获取函数或 oracle 标注者的主动学习。
- 概述挑战与伦理考量,如幻觉、采样偏差、劳动力置换及社会影响。
实验结果
研究问题
- RQ1在NLP任务中将LLMs用作数据标注者的主要方法有哪些?
- RQ2如何评估LLM生成的标注并将其整合到学习流程中?
- RQ3对数据标注任务进行提示、调优和对齐LLMs的最佳实践是什么?
- RQ4在部署基于LLM的数据标注系统时会出现哪些挑战与伦理考量?
主要发现
- LLMs能够通过提供超出传统标签的辅助信号来自动化和改进数据标注。
- 全面的分类法涵盖从手工设计的提示到对齐调优和指令调优策略。
- LLM生成的标注可以直接用于监督学习,用于知识蒸馏到较小的模型,或用于对下游模型进行微调/提示。
- 将LLMs用作获取函数或 oracle 标注者的主动学习可以提高样本效率。
- 对LLM生成的标注的评估包括人工基准、任务特定指标以及诸如主动学习之类的数据选择策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。