QUICK REVIEW

[论文解读] Parsing Argumentation Structures in Persuasive Essays

Christian Stab, Iryna Gurevych|arXiv (Cornell University)|Apr 25, 2016

Software Engineering Research参考文献 126被引用 51

一句话总结

本文提出了一种新颖的端到端论证结构解析器，通过标记级序列标注与整数线规划（ILP）联合识别论证组件（主张、前提）及其关系，实现全局优化。该方法显著优于基线模型，并构建了一个包含402篇标注的高质量语料库，具有较高的标注者间一致性，为计算论证研究提供了可复现的基础。

ABSTRACT

In this article, we present a novel approach for parsing argumentation structures. We identify argument components using sequence labeling at the token level and apply a new joint model for detecting argumentation structures. The proposed model globally optimizes argument component types and argumentative relations using integer linear programming. We show that our model considerably improves the performance of base classifiers and significantly outperforms challenging heuristic baselines. Moreover, we introduce a novel corpus of persuasive essays annotated with argumentation structures. We show that our annotation scheme and annotation guidelines successfully guide human annotators to substantial agreement. This corpus and the annotation guidelines are freely available for ensuring reproducibility and to encourage future research in computational argumentation.

研究动机与目标

开发一种稳健的端到端方法，用于解析说理性文章中的论证结构。
评估人类标注者是否能通过新的标注方案可靠地识别论证结构。
创建一个高质量、公开可用的说理性文章语料库，标注有话语层面的论证结构。
在局部、基于启发式的方法之外，提升论证组件与关系识别的性能。
通过可复现的数据与标注指南，为未来计算论证研究提供支持。

提出的方法

提出一种联合模型，结合标记级序列标注以识别论证组件，并利用整数线规划（ILP）对所有组件类型与论证关系进行全局优化。
采用连通树结构建模论证，允许存在多个论证和未连接的组件，与强制形成单一树结构的MST方法不同。
采用包含词汇、句法、话语、情感、结构及嵌入特征的丰富模型，用于立场与组件识别。
应用ILP联合优化所有组件与关系的预测，确保结构的一致性与连贯性。
设计一种基于论证理论的新标注方案，明确区分主张、前提与论证关系（支持/反驳）。
通过人类标注者开展标注研究，验证该方案的可行性，并在构建的语料库中实现了较高的标注者间一致性。

实验结果

研究问题

RQ1人类标注者能否在使用所提出的标注方案时，可靠地识别说理性文章中的论证结构？
RQ2一种通过全局优化组件类型与关系的联合模型，是否能优于局部或启发式基线模型？
RQ3所提出的基于ILP的联合模型是否在论证组件与关系检测中显著优于基础分类器？
RQ4所构建的标注说理性文章语料库是否具备足够的质量和可靠性以支持未来研究？
RQ5整合多种特征（词汇、句法、话语等）是否能提升论证结构解析的性能？

主要发现

所提出的基于ILP的联合模型在论证组件与关系识别方面，显著优于基线分类器与启发式基线模型。
人类标注者在应用新标注方案时表现出较高的标注一致性，验证了其可靠性和可用性。
包含402篇说理性文章、标注有话语层面论证结构的语料库已公开发布，支持可复现研究。
所有特征类型（词汇、句法、话语、情感、结构、嵌入）的综合使用带来最佳性能，且无单一特征组为绝对必需。
包含全部特征的模型取得了0.702的宏F1分数，显著优于多数类基线（0.475）与启发式基线（0.521）。
通过ILP实现的联合优化能有效捕捉复杂论证结构，包括多个论证与未连接的组件，而MST方法无法准确表示此类结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。