QUICK REVIEW

[论文解读] LlamBERT: Large-scale low-cost data annotation in NLP

Bálint Csanády, Lajos Muzsai|arXiv (Cornell University)|Mar 23, 2024

Data Mining Algorithms and Applications被引用 8

一句话总结

LlamBERT 在未标注数据的子集上结合基于 LLM 的标注与对 BERT/RoBERTa 的微调，在 IMDb 和 UMLS 数据集上以较低成本实现具有竞争力的准确率。

ABSTRACT

Large Language Models (LLMs), such as GPT-4 and Llama 2, show remarkable proficiency in a wide range of natural language processing (NLP) tasks. Despite their effectiveness, the high costs associated with their use pose a challenge. We present LlamBERT, a hybrid approach that leverages LLMs to annotate a small subset of large, unlabeled databases and uses the results for fine-tuning transformer encoders like BERT and RoBERTa. This strategy is evaluated on two diverse datasets: the IMDb review dataset and the UMLS Meta-Thesaurus. Our results indicate that the LlamBERT approach slightly compromises on accuracy while offering much greater cost-effectiveness.

研究动机与目标

使用 LLM 来标注大规模未标注语料子集，以实现资源高效的数据标注范式。
证明使用 LLM 标注数据来微调较小的变换器（如 BERT 和 RoBERTa）的有效性。
在多样化数据集（IMDb 情感分析和 UMLS 解剖学相关概念）上评估该方法，以评估普适性和成本效率。

提出的方法

用 Llama 2 对未标注数据的随机子集进行二元提示的标注，反映标注标准。
将 Llama 2 的输出解析为目标类别，并丢弃不明确的数据。
在 LLM 标注数据上对 BERT/RoBERTa 分类器进行微调，必要时在金标数据上微调以提升性能。
将微调后的分类器应用于对完整未标注语料库进行标注。
比较 LlamBERT 的变体（0-shot、few-shot 提示；额外未标注数据；与 gold 数据结合）在各模型上的表现。
使用 Llama-2-7b-chat、Llama-2-70b-chat 和 GPT-4-0613 进行实验，以评估有效性和成本。

实验结果

研究问题

RQ1LLM 辅助标注未标注数据子集，在用于微调较小的变换器时，是否能产生具有竞争力的 NLP 模型性能？
RQ2相比仅使用金标数据，添加由 LLM 标注的额外未标注数据如何影响下游准确性？
RQ3在基准测试中，LlamBERT 相较于全监督或全 LLM 标注的成本效率如何？
RQ4混合方法是否能在不同领域泛化，如情感分析（IMDb）和生物医学本体标注（UMLS）？

主要发现

模型	基线训练	LlamBERT 训练	LlamBERT 训练+额外数据	额外数据+训练的组合
distilbert-base	91.23	90.77	92.12	92.53
bert-base	92.35	91.58	92.76	93.47
bert-large	94.29	93.31	94.07	95.03
roberta-base	94.74	93.53	94.28	95.23
roberta-large	96.54	94.83	94.98	96.68

对于 IMDb，当与金数据结合且纳入 LLM 标注数据时，RoBERTa-large 达到状态-of-the-art 性能（测试集 96.68%）。
LlamBERT 接近金标基线的准确率，同时显著降低标注成本；使用 Llama-2-70b-chat 标注的额外未标注数据带来小幅准确性提升。
用 Llama-2-70b-chat 标注 10,000 条记录在准确性与效率之间提供了合理平衡，RoBERTa-large 展现出对标注噪声的强鲁棒性。
在 UMLS 实验中，LlamBERT 相比基线 BERT/RoBERTa 有所提升，结合标注（Llama-2-70b-chat 加上 gold 数据）接近或匹配领域特定模型如 BiomedBERT-large。
结合策略通常略微优于单独使用 LLM 标注，表明混合方法在大规模注释方面具有实际效益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。