QUICK REVIEW
[论文解读] Marmara Turkish Coreference Corpus and Coreference Resolution Baseline
Peter Schüller, Kübra Cıngıllı|arXiv (Cornell University)|Jun 6, 2017
Natural Language Processing Techniques被引用 5
一句话总结
本文介绍了马尔马拉土耳其指代消解语料库,这是首个大规模、人工标注的土耳其语指代消解语料库,通过两阶段标注流程创建,每份文档均获得十余份独立标注,实现了完全自动化的仲裁。本文还提出了一套针对土耳其语提及识别与指代消解的基线系统,在使用留一法交叉验证时,F1得分为68.7%,为土耳其语自然语言处理研究奠定了基础资源。
ABSTRACT
We describe the Marmara Turkish Coreference Corpus, which is an annotation of the whole METU-Sabanci Turkish Treebank with mentions and coreference chains. Collecting eight or more independent annotations for each document allowed for fully automatic adjudication. We provide a baseline system for Turkish mention detection and coreference resolution and evaluate it on the corpus.
研究动机与目标
- 创建首个大规模、公开可用的土耳其语指代消解语料库,以解决这种黏着语缺乏标注资源的问题。
- 通过每份文档收集多份独立标注,设计稳健的标注流程,实现高标注者间一致性。
- 通过基于投票的算法实现完全自动化的仲裁,利用高标注密度实现此目标。
- 提供一个与语料库格式兼容的提及识别与指代消解基线系统。
- 通过在公共存储库中发布语料库、工具与基线系统,支持未来土耳其语自然语言处理研究。
提出的方法
- 实施两阶段标注流程:第一阶段涉及提及与链的创建,但一致性较低,因此进入第二阶段,仅对指代链进行标注。
- 每份文档收集超过十份独立标注,通过类似投票的算法实现完全自动化的仲裁。
- 设计基于XML的语料库格式,用于表示文档、句子、词项、提及与指代链,同时保持与METU-Sabanci土耳其语句法树库的对齐。
- 开发基线系统,结合基于规则与监督学习的方法进行提及识别与指代消解,该系统在语料库上进行训练与评估。
- 采用留一法交叉验证策略,评估基线系统在完整语料库上的性能。
- 提供工具,将XML语料库转换为CoNLL格式,以增强与现有自然语言处理工具包的兼容性。
实验结果
研究问题
- RQ1在形态复杂且缺乏语法性别标记的土耳其语中,如何可靠地生成高质量的指代标注?
- RQ2当达到足够高的标注密度时,自动仲裁在指代语料库构建中能在多大程度上替代人工共识?
- RQ3在使用标准评估协议时,基线系统在新创建的马尔马拉土耳其指代消解语料库上能达到怎样的性能?
- RQ4与OntoNotes或ACE等现有多语言指代语料库相比,马尔马拉土耳其指代消解语料库的结构与标注质量有何异同?
- RQ5在黏着语如土耳其语中,指代消解面临的主要挑战是什么?这些挑战与印欧语系语言有何不同?
主要发现
- 马尔马拉土耳其指代消解语料库包含超过100,000个提及,覆盖1,000余份文档,每份文档均有十余份独立标注,支持完全自动化的仲裁。
- 自动仲裁工具通过在多份标注上使用投票机制,实现了高度一致性,显著优于人工仲裁的可靠性。
- 基线系统在使用留一法交叉验证时,F1得分为68.7%,为未来方法建立了强有力的基准。
- 语料库以XML格式公开发布,并提供转换工具转为CoNLL格式,支持与现有自然语言处理流水线的集成。
- 本研究证明,通过可扩展的多标注者工作流,对形态丰富、黏着性强的语言如土耳其语进行高质量指代标注是可行的。
- 结果表明,由于存在零代词、歧义词素及缺乏性别标记,土耳其语的指代消解仍具挑战性,凸显了开发专用模型的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。