Skip to main content
QUICK REVIEW

[论文解读] A Universal Part-of-Speech Tagset

Slav Petrov, Dipanjan Das|arXiv (Cornell University)|Apr 11, 2011
Natural Language Processing Techniques参考文献 46被引用 731
一句话总结

本文提出一个包含十二种类别的通用词性(POS)标签集,以标准化跨语言自然语言处理研究。该研究将25种语言特定的语料库标签集映射到此通用标签集中,实现了在22种语言中无需黄金标准POS标签的无监督语法归纳,仅使用投影得到的通用标签即达到具有竞争力的依存句法分析准确率。

ABSTRACT

To facilitate future research in unsupervised induction of syntactic structure and to standardize best-practices, we propose a tagset that consists of twelve universal part-of-speech categories. In addition to the tagset, we develop a mapping from 25 different treebank tagsets to this universal set. As a result, when combined with the original treebank data, this universal tagset and mapping produce a dataset consisting of common parts-of-speech for 22 different languages. We highlight the use of this resource via two experiments, including one that reports competitive accuracies for unsupervised grammar induction without gold standard part-of-speech tags.

研究动机与目标

  • 通过定义12种类别的粗粒度POS类别,实现跨语言词性标注的标准化。
  • 开发从25种语言特定的语料库标签集到该通用标签集的可靠映射。
  • 实现跨语言POS标注与语法归纳性能的公平比较。
  • 通过用自动投影的通用POS标签替代黄金标准POS标签,支持低资源语言的无监督语法归纳。
  • 通过减少对语言特定标注指南的依赖,促进下游自然语言处理应用。

提出的方法

  • 定义十二种类别的通用POS标签集:名词(Noun)、动词(Verb)、形容词(Adj)、副词(Adv)、代词(Pron)、限定词(Det)、介词(Adp)、数词(Num)、连词(Conj)、后置词(PRT)、标点符号(.)和其他(X)。
  • 基于原始标注指南的操作性定义,将25种语言特定的语料库标签集(包括英语、德语、日语和中文)映射到通用标签集。
  • 使用跨语言POS投影方法,自动为无黄金标准标注的目标语言生成通用POS标签。
  • 在基于通用句法规则(USR)的概率贝叶斯模型中应用通用POS标签,实现无监督语法归纳框架。
  • 在CoNLL-X语料库上,使用黄金标准通用POS标签和投影的通用POS标签,训练并评估语法归纳模型。
  • 在句长10及以下的句子中,排除标点符号,比较不同模型(DMV、PGI、USR-G、USR-I)在有向依存句法准确率上的表现。

实验结果

研究问题

  • RQ1一个包含十二种类别的通用POS标签集是否能在22种语言中实现泛化,并支持一致的自然语言处理评估?
  • RQ2当使用自动投影的通用POS标签而非黄金标准POS标签时,无监督语法归纳的性能如何?
  • RQ3该通用标签集是否能实现更可靠的跨语言POS标注与依存句法分析准确率比较?
  • RQ4在投影的通用POS标签上训练的语法归纳模型,其性能是否能与使用黄金标准细粒度POS标签的模型相媲美?
  • RQ5在低资源设置下,使用通用标签集对无监督依存句法系统性能有何影响?

主要发现

  • 通用POS标签集及其映射使得在22种语言中使用同一标签集,实现POS标注与语法归纳的一致性跨语言评估成为可能。
  • 使用自动投影通用POS标签的语法归纳模型(USR-I)在所有八个测试语言中均优于DMV模型,并且性能与使用细粒度黄金标准POS标签的PGI模型相当。
  • USR-I模型的有向依存句法准确率范围为41.7%(丹麦语)至70.9%(葡萄牙语),接近使用黄金标准通用标签的USR-G模型(准确率范围55.1%至68.3%)。
  • 在原始细粒度标签上进行训练,并将预测结果映射到通用标签(O/U)所获得的准确率高于直接在通用标签集上训练的模型,表明通用标签集对转移模型而言信息量较少。
  • 该通用标签集可在无需目标语言任何标注数据的情况下,有效支持无监督语法归纳,证明其在低资源环境中的实用性。
  • 该资源已公开发布于 http://code.google.com/p/universal-pos-tags/,供研究与应用开发使用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。