Skip to main content
QUICK REVIEW

[论文解读] LlamBERT: Large-scale low-cost data annotation in NLP

Bálint Csanády, Lajos Muzsai|arXiv (Cornell University)|Mar 23, 2024
Data Mining Algorithms and Applications被引用 8
一句话总结

LlamBERT 在未标注数据的子集上结合基于 LLM 的标注与对 BERT/RoBERTa 的微调,在 IMDb 和 UMLS 数据集上以较低成本实现具有竞争力的准确率。

ABSTRACT

Large Language Models (LLMs), such as GPT-4 and Llama 2, show remarkable proficiency in a wide range of natural language processing (NLP) tasks. Despite their effectiveness, the high costs associated with their use pose a challenge. We present LlamBERT, a hybrid approach that leverages LLMs to annotate a small subset of large, unlabeled databases and uses the results for fine-tuning transformer encoders like BERT and RoBERTa. This strategy is evaluated on two diverse datasets: the IMDb review dataset and the UMLS Meta-Thesaurus. Our results indicate that the LlamBERT approach slightly compromises on accuracy while offering much greater cost-effectiveness.

研究动机与目标

  • 使用 LLM 来标注大规模未标注语料子集,以实现资源高效的数据标注范式。
  • 证明使用 LLM 标注数据来微调较小的变换器(如 BERT 和 RoBERTa)的有效性。
  • 在多样化数据集(IMDb 情感分析和 UMLS 解剖学相关概念)上评估该方法,以评估普适性和成本效率。

提出的方法

  • 用 Llama 2 对未标注数据的随机子集进行二元提示的标注,反映标注标准。
  • 将 Llama 2 的输出解析为目标类别,并丢弃不明确的数据。
  • 在 LLM 标注数据上对 BERT/RoBERTa 分类器进行微调,必要时在金标数据上微调以提升性能。
  • 将微调后的分类器应用于对完整未标注语料库进行标注。
  • 比较 LlamBERT 的变体(0-shot、few-shot 提示;额外未标注数据;与 gold 数据结合)在各模型上的表现。
  • 使用 Llama-2-7b-chat、Llama-2-70b-chat 和 GPT-4-0613 进行实验,以评估有效性和成本。

实验结果

研究问题

  • RQ1LLM 辅助标注未标注数据子集,在用于微调较小的变换器时,是否能产生具有竞争力的 NLP 模型性能?
  • RQ2相比仅使用金标数据,添加由 LLM 标注的额外未标注数据如何影响下游准确性?
  • RQ3在基准测试中,LlamBERT 相较于全监督或全 LLM 标注的成本效率如何?
  • RQ4混合方法是否能在不同领域泛化,如情感分析(IMDb)和生物医学本体标注(UMLS)?

主要发现

模型基线训练LlamBERT 训练LlamBERT 训练+额外数据额外数据+训练的组合
distilbert-base91.2390.7792.1292.53
bert-base92.3591.5892.7693.47
bert-large94.2993.3194.0795.03
roberta-base94.7493.5394.2895.23
roberta-large96.5494.8394.9896.68
  • 对于 IMDb,当与金数据结合且纳入 LLM 标注数据时,RoBERTa-large 达到状态-of-the-art 性能(测试集 96.68%)。
  • LlamBERT 接近金标基线的准确率,同时显著降低标注成本;使用 Llama-2-70b-chat 标注的额外未标注数据带来小幅准确性提升。
  • 用 Llama-2-70b-chat 标注 10,000 条记录在准确性与效率之间提供了合理平衡,RoBERTa-large 展现出对标注噪声的强鲁棒性。
  • 在 UMLS 实验中,LlamBERT 相比基线 BERT/RoBERTa 有所提升,结合标注(Llama-2-70b-chat 加上 gold 数据)接近或匹配领域特定模型如 BiomedBERT-large。
  • 结合策略通常略微优于单独使用 LLM 标注,表明混合方法在大规模注释方面具有实际效益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。