Skip to main content
QUICK REVIEW

[论文解读] Multi-Perspective LLM Annotations for Valid Analyses in Subjective Tasks

Navya Mehrotra, Adam Visokay|arXiv (Cornell University)|Mar 22, 2026
Topic Modeling被引用 0
一句话总结

这篇论文提出 Perspective-Driven Inference (PDI),一种自适应采样框架,利用少量人类输入与大型语言模型标注来估计主观任务中的群体特定标注均值,在不同人口群体之间保持分歧并改善难以建模的观点。

ABSTRACT

Large language models are increasingly used to annotate texts, but their outputs reflect some human perspectives better than others. Existing methods for correcting LLM annotation error assume a single ground truth. However, this assumption fails in subjective tasks where disagreement across demographic groups is meaningful. Here we introduce Perspective-Driven Inference, a method that treats the distribution of annotations across groups as the quantity of interest, and estimates it using a small human annotation budget. We contribute an adaptive sampling strategy that concentrates human annotation effort on groups where LLM proxies are least accurate. We evaluate on politeness and offensiveness rating tasks, showing targeted improvements for harder-to-model demographic groups relative to uniform sampling baselines, while maintaining coverage.

研究动机与目标

  • 在主观任务中强调需要保留标注者的分歧而非收敛到单一真值的动机。
  • 将多观点语料推断形式化为估计一个群体特定均值向量。
  • 开发一种自适应采样策略,将人类标注聚焦在LLM代理较不准确的群体上。
  • 提出基于逆概率加权(IPW)的估计量,并通过自助法置信区间实现有效的群体层面推断。

提出的方法

  • 用文本 T_i、来自 K 个群体的人群标签 d_i 的标注者对其进行标注来定义问题设定,目标估计 theta* = (theta*_g1, ..., theta*_gK)。
  • 将 LLM 标注作为低成本代理,从人口统计特征中学习误差预测 hat{err}_i(d_i),以引导人类标注的自适应采样;烧入阶段在批量更新之前进行。
  • 按照 pi_i 的比例收集人类标注 H_i,批次内归一化,并用累积数据更新 hat{err}_i。
  • 通过逆概率加权(IPW)校正估计 theta*_gk,并通过自助法(Bootstrap)(Zrnic & Candès, 2024)获取置信区间。
  • 将 PDI 与基线方法比较:仅 LLM(零-shot/少量示例、人物设定提示)和 PPI(均匀采样),确保覆盖率并评估各人口群体的均值绝对误差(delta)。
Figure 1: Overview of the Perspective-Driven Inference . Starting from a corpus of $n$ texts, we collect LLM annotations, initialize human annotation via uniform sampling, and then enter an adaptive loop that predicts LLM error from demographic features, sampling human annotations across groups. The
Figure 1: Overview of the Perspective-Driven Inference . Starting from a corpus of $n$ texts, we collect LLM annotations, initialize human annotation via uniform sampling, and then enter an adaptive loop that predicts LLM error from demographic features, sampling human annotations across groups. The

实验结果

研究问题

  • RQ1我们能否估计一个群体特定标注均值向量,在主观任务中保留人口统计视角吗?
  • RQ2与均匀采样或仅 LLM 基线相比,基于误差驱动的自适应人类标注分配是否能提高准确性并保持对难以建模群体的有效覆盖?
  • RQ3Perspective-Driven Inference 在礼貌与冒犯性评分任务及合成数据上的表现如何?

主要发现

  • 在礼貌任务中,PDI 在年龄组覆盖率保持在 90% 以上,且 50 岁及以上组的 delta 改善最大(PDI 为 11.23%,而最佳 LLM-Only 为 16.31%)。
  • 在礼貌评分中,PDI 对年龄分组的平均 delta 最低,特别是 50 岁以上(11.23% 对比 PPI 的 13.63%)。
  • 在冒犯性评分方面,单独 LLM 方法在覆盖率和 delta 上表现较差,而 PDI 与 PPI 在所有年龄段均维持 95.0% 的覆盖率,50 岁以上组的 delta 为 5.24%,而单一 LLM 变体则超过 24%。
  • PDI 将更多人类标注分配给更难的群体(例如 50 岁以上),在礼貌任务中相对于均匀采样增加了 33%,在 50 岁以上的冒犯性任务中增加了 19%。
  • 合成数据实验表明,当人力预算超过 20% 且 LLM 在群体间性能差异较大时,自适应采样具有优势,对高度偏斜或建模较差的群体收益更大。
Figure 2: Annotation distributions vary across demographic groups. Human ratings for politeness (top) and offensiveness (bottom) broken down by annotator demographics. Variation across groups motivates estimating a vector of group-specific means rather than a single aggregate.
Figure 2: Annotation distributions vary across demographic groups. Human ratings for politeness (top) and offensiveness (bottom) broken down by annotator demographics. Variation across groups motivates estimating a vector of group-specific means rather than a single aggregate.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。