QUICK REVIEW

[论文解读] Apportioning Development Effort in a Probabilistic LR Parsing System through Evaluation

John A. Carroll, Ted Briscoe|ArXiv.org|Apr 12, 1996

Natural Language Processing Techniques参考文献 22被引用 39

一句话总结

本文提出了一种稳健的、与领域无关的概率LR解析器，通过放松子分类约束并利用标点符号和词性标注序列，在通用英语文本上实现了约80%的句子覆盖率。该系统通过在解析历史频率上进行有监督训练，为LALR(1)转移分配概率，从而在训练数据有限的情况下仍能实现精确的解析选择。实验表明，仅需少量数据即可实现67–75%的覆盖率以及高精度与高召回率（84%/83%），从而减少了对详尽子分类框架的依赖。

ABSTRACT

We describe an implemented system for robust domain-independent syntactic parsing of English, using a unification-based grammar of part-of-speech and punctuation labels coupled with a probabilistic LR parser. We present evaluations of the system's performance along several different dimensions; these enable us to assess the contribution that each individual part is making to the success of the system as a whole, and thus prioritise the effort to be devoted to its further enhancement. Currently, the system is able to parse around 80% of sentences in a substantial corpus of general text containing a number of distinct genres. On a random sample of 250 such sentences the system has a mean crossing bracket rate of 0.71 and recall and precision of 83% and 84% respectively when evaluated against manually-disambiguated analyses.

研究动机与目标

开发一种稳健的、与领域无关的句法解析器，能够处理不受限的自然语言输入，且不依赖子分类约束。
评估各组件（如标点符号处理、词性标注和语法规则）对整体系统性能的贡献，以指导开发优先级。
评估在有限训练数据下是否可实现高精度的解析选择，从而减少对大规模标注语料库的依赖。
探索使用小到中等规模语料库树库和适度人工投入，将该系统移植到其他语言的可行性。
研究词汇化概率模型是否能进一步提升解析准确率，并支持从原始文本中恢复论元结构。

提出的方法

系统采用基于统一的、带特征的语法，以ANLT形式化语言描述词性标注序列，编译为类似DCG的结构，包含约400条规则。
采用基于LALR(1)状态和前瞻项的概率LR解析器，通过在解析历史频率上进行有监督训练来分配概率。
移除子分类约束以提升覆盖率，同时利用标点符号和词性标注序列减少句法歧义。
通过训练的概率模型对前n个最可能的推导路径进行排序，统一失败机制用于剔除无效推导。
使用多种指标评估系统性能：在保留测试集上的覆盖率、交叉括号率、精确率、召回率以及GEIG得分。
通过改变训练数据规模进行实验，以评估数据效率，使用3793棵树语料库的随机子集，测量准确率的下降程度。

实验结果

研究问题

RQ1在不牺牲解析准确率的前提下，子分类约束能在多大程度上被放松？这对覆盖率有何影响？
RQ2标点符号和词性标注序列在概率LR解析器中减少句法歧义方面的有效性如何？
RQ3该系统实现高精度解析选择需要多少训练数据？
RQ4性能的上限是多少？随着数据量增加，系统是否表现出过拟合或收益递减的迹象？
RQ5是否可以使用小规模语料库树库和适度人工投入，将该系统移植到其他语言？

主要发现

该系统在通用英语语料库上实现了约80%的句子覆盖率，显著优于以往依赖子分类约束的系统。
在250个句子的保留测试集上，系统平均交叉括号率为0.71，相对于人工消歧解析结果，召回率为83%，精确率为84%。
仅使用全量训练数据的1/64（59棵树）时，系统准确率下降10–20%，表明其具有极强的数据效率。
在领域内测试集上，性能在约75%覆盖率和77–78%精确率/召回率处趋于稳定，表明进一步扩大语料库的收益有限。
即使没有子分类约束，系统依然稳健，表明标点符号和词性标注序列可有效替代子分类约束以减少歧义。
结果表明，使用约20,000词的树库数据和约12个人月的人工投入，即可实现该系统向其他语言的移植。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。