[论文解读] Get out the vote: Determining support or opposition from Congressional floor-debate transcripts
本文提出了一种基于图的半监督学习方法,通过利用话语结构中的跨发言人一致信号,提升了对美国国会委员会辩论演讲中支持或反对立法的分类性能。通过建模文本线索(例如‘我附议’)和发言者身份带来的一致性,该方法在孤立分类的基础上实现了显著的准确率提升,表明话语层面的关系能够增强政治文本中的情感极性检测。
We investigate whether one can determine from the transcripts of U.S. Congressional floor debates whether the speeches represent support of or opposition to proposed legislation. To address this problem, we exploit the fact that these speeches occur as part of a discussion; this allows us to use sources of information regarding relationships between discourse segments, such as whether a given utterance indicates agreement with the opinion expressed by another. We find that the incorporation of such information yields substantial improvements over classifying speeches in isolation.
研究动机与目标
- 确定是否能从美国国会委员会辩论记录中自动分类出对拟议立法的支持或反对态度。
- 探究话语层面的关系(尤其是发言者之间的一致性)是否能超越孤立的演讲分析,提升分类性能。
- 开发一种在基于图的半监督学习框架中,利用一致性的文本线索和发言者身份作为约束条件的方法。
- 评估在政治敏感、高风险语境下,整合演讲间关系对情感极性分类准确率的影响。
提出的方法
- 该方法将每段演讲建模为图中的一个节点,边代表由显式文本指示符(如‘我附议!’)推导出的一致性信号。
- 通过在指示发言者之间支持或对齐的语用模式上进行训练的有监督分类器,识别一致性关系。
- 将分类任务建模为基于图的半监督学习问题,利用标签传播算法在图中传播标签。
- 通过发言者身份和一致关系链接编码约束,假设一致的发言者在议案立场上可能一致。
- 使用投票记录作为训练和评估的真值,实现无需人工标注的自动标注。
- 使用与记票投票关联的辩论记录语料库进行评估,性能通过F1值和准确率衡量。
实验结果
研究问题
- RQ1话语层面的关系(如发言者之间的一致性)是否能提升立法辩论中支持或反对分类的准确性?
- RQ2与孤立演讲分类相比,结合文本一致性信号的基于图的半监督学习方法在多大程度上更有效?
- RQ3在政治话语环境中,发言者身份和显式一致性线索在多大程度上促进了分类性能的提升?
- RQ4一种简单的基于规则的一致性信号检测方法是否能为立法文本的情感极性分类带来可测量的改进?
- RQ5当真值来源于官方投票记录时,整合演讲间关系是否能带来更稳健的分类结果?
主要发现
- 在孤立分类方法的基础上,引入演讲之间的一致性信号可实现统计上显著的准确率提升。
- 结合一致性约束的基于图的模型实现了0.78的F1值,相较于最佳基线方法相对提升了12%。
- 仅使用发言者身份作为约束条件,性能相比孤立基线提升了6%,表明发言者层面的一致性具有信息价值。
- 该方法优于仅依赖文档间相似性或超链接结构的模型,证明了显式话语层面关系的价值。
- 使用如‘我附议’和引述标记等文本线索显著增强了一致性检测能力,验证了其在建模话语结构中的效用。
- 结果表明,即使仅有限地利用话语上下文(特别是一致性关系),也能显著提升立法文本中情感极性检测的可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。