[论文解读] Validating Political Position Predictions of Arguments
该论文提出一个双尺度验证框架,将点点评价与成对比较结合起来,用于验证来自30场BBC Question Time辩论的23,228个论点单位的政治立场预测,使用22个语言模型,并构建一个用于图形推理和基于检索的生成的结构化知识库。
Real-world knowledge representation often requires capturing subjective, continuous attributes -- such as political positions -- that conflict with pairwise validation, the widely accepted gold standard for human evaluation. We address this challenge through a dual-scale validation framework applied to political stance prediction in argumentative discourse, combining pointwise and pairwise human annotation. Using 22 language models, we construct a large-scale knowledge base of political position predictions for 23,228 arguments drawn from 30 debates that appeared on the UK politicial television programme extit{Question Time}. Pointwise evaluation shows moderate human-model agreement (Krippendorff's $α=0.578$), reflecting intrinsic subjectivity, while pairwise validation reveals substantially stronger alignment between human- and model-derived rankings ($α=0.86$ for the best model). This work contributes: (i) a practical validation methodology for subjective continuous knowledge that balances scalability with reliability; (ii) a validated structured argumentation knowledge base enabling graph-based reasoning and retrieval-augmented generation in political domains; and (iii) evidence that ordinal structure can be extracted from pointwise language models predictions from inherently subjective real-world discourse, advancing knowledge representation capabilities for domains where traditional symbolic or categorical approaches are insufficient.
研究动机与目标
- 解决大语言模型产生的主观连续政治立场分数验证挑战。
- 将可扩展的点点评价与可靠的成对比较结合起来,以捕捉序数政治立场。
- 构建一个大规模、结构化的 locution–argument 单位及其预测政治立场的知识库。
- 在政治话语中实现后续的基于图的推理和检索增强生成。
- 提供证据表明在主观现实世界话语中可以从点评预测中提取序数结构。
提出的方法
- 开发一个将点评与成对人类注释相结合的双尺度验证框架。
- 使用22个LLM对30场Question Time辩论中的23,228对 locution–proposition(ADU)进行注释,预测在0–100 左-右刻度上的政治立场。
- 构建三个模型集成(E1:所有模型,E2:推理模型,E3:高置信度模型)并汇总预测。
- 在人类验证方面分两个阶段进行:点评政治 vs. 非政治分类以及成对论点比较,使用超过1,500名众包工人。
- 将预测表示为Neo4j中的知识图,连接locutions、ADUs及其关系(支持/攻击/改述)。
- 用Krippendorff’s αn评估点评预测,用Bradley–Terry模型和序数一致性度量评估成对排序,并映射到潜在的政治尺度。

实验结果
研究问题
- RQ1可扩展的点评政治立场预测是否与主观话语中的人类判断一致?
- RQ2引入成对(序数)验证是否提高了政治立场预测在论点中的可靠性和实用性?
- RQ3大规模、结构化的论点立场知识库在图形推理和基于检索的生成中的支持程度如何?
- RQ4模型分歧、人类分歧与论点单位级别的政治立场预测的下游任务表现之间的关系如何?
主要发现
- 点点评人机一致性在完整数据集上的中等水平(点评评估中最佳模型的 Krippendorff’s αn = 0.578)。
- 成对验证显示人机排序的一致性显著更强(顶级模型的 αo 约为 0.85–0.86)。
- 对点点评众包标签的 annotator 间一致性在完整数据集上较低(αn 约为 0.305),但对一致标签的情况有所提高(αn 约为 0.483)。
- 模型表现与人类一致性相关;人机一致性越高,宏观 F1 / 微观 F1 / 均衡准确率越好,在有信心的子集上表现优于模糊子集。
- 在完整分布下,集成模型在排序任务上优于单一模型,而在高置信条件下,某些高置信度的单模型趋近于集成性能。
- 该工作提供了一个经过验证的知识库,支持在政治话语中进行基于图的推理和基于检索的生成,具有对主观连续知识验证的可扩展方法。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。