[论文解读] Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis
本篇论文研究将大型语言模型(LLMs)用作 ASTE 与 ACOS 细粒度意见任务的自动标注器,并引入一个基于 DSPy 的声明式流水线以及一个基于 LLM 的裁决方法,将多次标注汇聚为最终标签。
Fine-grained opinion analysis of text provides a detailed understanding of expressed sentiments, including the addressed entity. Although this level of detail is sound, it requires considerable human effort and substantial cost to annotate opinions in datasets for training models, especially across diverse domains and real-world applications. We explore the feasibility of LLMs as automatic annotators for fine-grained opinion analysis, addressing the shortage of domain-specific labelled datasets. In this work, we use a declarative annotation pipeline. This approach reduces the variability of manual prompt engineering when using LLMs to identify fine-grained opinion spans in text. We also present a novel methodology for an LLM to adjudicate multiple labels and produce final annotations. After trialling the pipeline with models of different sizes for the Aspect Sentiment Triplet Extraction (ASTE) and Aspect-Category-Opinion-Sentiment (ACOS) analysis tasks, we show that LLMs can serve as automatic annotators and adjudicators, achieving high Inter-Annotator Agreement across individual LLM-based annotators. This reduces the cost and human effort needed to create these fine-grained opinion-annotated datasets.
研究动机与目标
- 通过使用 LLM 作为自动标注器,降低创建 ASTE 与 ACOS 的细粒度意见数据集的成本和人力投入。
- 通过采用声明式流水线(DSPy)在有限标注示例的基础上优化提示,减轻提示设计的变异性。
- 提出并评估一个基于 LLM 的裁决方法以解决标注者之间的分歧并产生最终标注。
- 评估不同规模的 LLM 在跨领域数据集(笔记本、餐厅)中的标注与裁决表现。
提出的方法
- 使用声明式标注流水线(DSPy)从少量标注的开发集生成优化提示。
- 在不进行微调的情况下,评估多种 LLM 标注器(三种模型规模)在 ASTE 与 ACOS 任务上的表现。
- 为每个输入生成多种标注,并在裁决步骤中让一个 LLM 将其聚合为最终标注(类似集成/堆叠的思路)。
- 对比人工标注,报告精确度、召回率和 F1,以及标注者间一致性 Krippendorff’s alpha (IAA)。
- 分析逐元素对齐与错误模式,以理解任务特定挑战(如 ACOS 的隐含方面)。

实验结果
研究问题
- RQ1LLMs 是否可在不进行微调的情况下,作为 ASTE 与 ACOS 任务的可靠自动标注器?
- RQ2基于 LLM 的裁决步骤是否相较单独标注器能提高与人工标注的一致性?
- RQ3模型规模如何影响 ASTE 与 ACOS 设置中的标注质量与 IAA?
- RQ4在用 ASTE 与 ACOS 标注细粒度意见时,主要的错误模式是什么?
- RQ5领域差异(笔记本 vs. 餐厅)对 ACOS 的标注难度和 IAA 有何影响?
主要发现
- 具备更大参数量的 LLM 标注器通常与人类标注在 ASTE 与 ACOS 任务上对齐更好。
- 裁决步骤在某些模型规模与数据集上提升了对齐性,表现类似于集成方法。
- ACOS 的四元组比 ASTE 的三元组更具挑战性,领域差异(笔记本 vs. 餐厅)影响精准匹配的 F1 分数。
- IKAA 分析表明 Krippendorff’s alpha 随模型规模增加而提高,意味着较大模型的 IAA 可靠性更高。
- 情感极性预测往往最能与人工标注对齐,而提取精确目标与片段则面临更大挑战。
- 在某些配置下,ACOS 的结果相对于人工标注的偏差大于 ASTE,表明任务难度存在差异。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。