[论文解读] LlamBERT: Large-scale low-cost data annotation in NLP
LlamBERT 在未标注数据的子集上结合基于 LLM 的标注与对 BERT/RoBERTa 的微调,在 IMDb 和 UMLS 数据集上以较低成本实现具有竞争力的准确率。
Large Language Models (LLMs), such as GPT-4 and Llama 2, show remarkable proficiency in a wide range of natural language processing (NLP) tasks. Despite their effectiveness, the high costs associated with their use pose a challenge. We present LlamBERT, a hybrid approach that leverages LLMs to annotate a small subset of large, unlabeled databases and uses the results for fine-tuning transformer encoders like BERT and RoBERTa. This strategy is evaluated on two diverse datasets: the IMDb review dataset and the UMLS Meta-Thesaurus. Our results indicate that the LlamBERT approach slightly compromises on accuracy while offering much greater cost-effectiveness.
研究动机与目标
- 使用 LLM 来标注大规模未标注语料子集,以实现资源高效的数据标注范式。
- 证明使用 LLM 标注数据来微调较小的变换器(如 BERT 和 RoBERTa)的有效性。
- 在多样化数据集(IMDb 情感分析和 UMLS 解剖学相关概念)上评估该方法,以评估普适性和成本效率。
提出的方法
- 用 Llama 2 对未标注数据的随机子集进行二元提示的标注,反映标注标准。
- 将 Llama 2 的输出解析为目标类别,并丢弃不明确的数据。
- 在 LLM 标注数据上对 BERT/RoBERTa 分类器进行微调,必要时在金标数据上微调以提升性能。
- 将微调后的分类器应用于对完整未标注语料库进行标注。
- 比较 LlamBERT 的变体(0-shot、few-shot 提示;额外未标注数据;与 gold 数据结合)在各模型上的表现。
- 使用 Llama-2-7b-chat、Llama-2-70b-chat 和 GPT-4-0613 进行实验,以评估有效性和成本。
实验结果
研究问题
- RQ1LLM 辅助标注未标注数据子集,在用于微调较小的变换器时,是否能产生具有竞争力的 NLP 模型性能?
- RQ2相比仅使用金标数据,添加由 LLM 标注的额外未标注数据如何影响下游准确性?
- RQ3在基准测试中,LlamBERT 相较于全监督或全 LLM 标注的成本效率如何?
- RQ4混合方法是否能在不同领域泛化,如情感分析(IMDb)和生物医学本体标注(UMLS)?
主要发现
| 模型 | 基线训练 | LlamBERT 训练 | LlamBERT 训练+额外数据 | 额外数据+训练的组合 |
|---|---|---|---|---|
| distilbert-base | 91.23 | 90.77 | 92.12 | 92.53 |
| bert-base | 92.35 | 91.58 | 92.76 | 93.47 |
| bert-large | 94.29 | 93.31 | 94.07 | 95.03 |
| roberta-base | 94.74 | 93.53 | 94.28 | 95.23 |
| roberta-large | 96.54 | 94.83 | 94.98 | 96.68 |
- 对于 IMDb,当与金数据结合且纳入 LLM 标注数据时,RoBERTa-large 达到状态-of-the-art 性能(测试集 96.68%)。
- LlamBERT 接近金标基线的准确率,同时显著降低标注成本;使用 Llama-2-70b-chat 标注的额外未标注数据带来小幅准确性提升。
- 用 Llama-2-70b-chat 标注 10,000 条记录在准确性与效率之间提供了合理平衡,RoBERTa-large 展现出对标注噪声的强鲁棒性。
- 在 UMLS 实验中,LlamBERT 相比基线 BERT/RoBERTa 有所提升,结合标注(Llama-2-70b-chat 加上 gold 数据)接近或匹配领域特定模型如 BiomedBERT-large。
- 结合策略通常略微优于单独使用 LLM 标注,表明混合方法在大规模注释方面具有实际效益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。