Skip to main content
QUICK REVIEW

[论文解读] Comparing a Linguistic and a Stochastic Tagger

Christer Samuelsson, Atro Voutilainen|ArXiv.org|Jun 7, 1997
Natural Language Processing Techniques参考文献 15被引用 27
一句话总结

本文将基于规则的词性标注器 EngCG-2 与在相同 EngCG 标注语料上训练的最先进统计标注器进行了比较。尽管歧义水平相似,EngCG-2 的错误率比统计标注器低 8.6 至 28 倍,表明即使使用相同的词性标注集和基准数据,基于约束的系统仍优于统计模型。

ABSTRACT

Concerning different approaches to automatic PoS tagging: EngCG-2, a constraint-based morphological tagger, is compared in a double-blind test with a state-of-the-art statistical tagger on a common disambiguation task using a common tag set. The experiments show that for the same amount of remaining ambiguity, the error rate of the statistical tagger is one order of magnitude greater than that of the rule-based one. The two related issues of priming effects compromising the results and disagreement between human annotators are also addressed.

研究动机与目标

  • 评估 EngCG-2 规则标注器的高准确率是否源于其标注集的简单性,而非更优的语言建模能力。
  • 探究人工标注语料中的启动效应是否会影响不同标注器性能比较的有效性。
  • 评估语言标注器与统计标注器之间观察到的性能差距是否源于歧义权衡,还是源于建模能力的根本性优势。
  • 确定 EngCG 标注集对统计标注器而言是否与更广泛使用的标注集具有同等挑战性。
  • 在使用保留基准语料库的相同消歧条件下的误差率,对 EngCG-2 与统计标注器进行比较。

提出的方法

  • 在 Brown 语料库中重新标注为 EngCG 标签的 357,000 个词子集上,训练了一个最先进统计标注器。
  • 将 EngCG-2(一个包含 3,600 条规则的基于约束的形态学标注器,分为五个子语法)与统计标注器应用于一个独立的 55,000 个词基准语料库。
  • 采用双盲评估设置,两名人工标注员在不知晓自动标注器输出的情况下独立对基准语料库进行消歧。
  • 通过误差率-歧义权衡曲线衡量性能,并在相同剩余歧义水平下比较两种标注器。
  • 在特定歧义水平(例如 1.026、1.070 个标签/词)插值误差率,以实现直接比较。
  • 分析错误来源,区分未见过的词(占总错误的 2.01%)与词汇标签遗漏(占 0.15%),后者在基准语料库中高于训练语料库。

实验结果

研究问题

  • RQ1EngCG-2 的高准确率是否可归因于其标注集的简单性,使得统计标注器更容易达到类似结果?
  • RQ2人工标注语料中的启动效应在多大程度上会损害自动标注器性能比较的有效性?
  • RQ3当两者均被限制在相同剩余歧义水平时,统计标注器是否能实现与 EngCG-2 相当的性能?
  • RQ4两种标注器的误差率如何随不同歧义水平变化,性能差距的量级是多少?
  • RQ5误差率的差异是源于词汇覆盖问题,还是根本性的建模能力差异?

主要发现

  • 在每词 1.026 个标签的歧义水平下,统计标注器的错误率是 EngCG-2 的 8.6 倍。
  • 在每词 1.070 个标签的歧义水平下,统计标注器的错误率是 EngCG-2 的 28.0 倍,表明随着歧义增加,性能差距进一步扩大。
  • 在最大歧义水平(14.24 个标签/词)下,统计标注器的残余错误率为 0.15%,主要源于对未知词的词汇标签遗漏。
  • 由于词汇不匹配程度更高,基准语料库的错误率比训练语料库高出 1.00%,其中未见词和词汇遗漏占总错误的 2.16%。
  • 人工标注员最初对 0.7% 的词存在分歧,但这些差异几乎完全由人为错误造成,而非真正的分歧,支持了黄金标准的可靠性。
  • 两种标注器之间的性能差距无法通过标注集简单性、歧义权衡或启动效应来解释,表明 EngCG-2 在词汇和上下文信息源方面的优势是关键差异因素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。