QUICK REVIEW

[论文解读] Can Subcategorisation Probabilities Help a Statistical Parser?

John A. Carroll, Guido Minnen|arXiv (Cornell University)|Jun 21, 1998

Natural Language Processing Techniques参考文献 32被引用 56

一句话总结

本文研究了来自1000万词语料库的子类化频率数据是否能提升统计解析器的准确性。通过在词汇化概率语法中引入子类化概率，作者展示了在句法关系恢复方面取得显著改进，减少了解析错误，并更好地匹配测试语料库的结构分布。

ABSTRACT

Research into the automatic acquisition of lexical information from corpora is starting to produce large-scale computational lexicons containing data on the relative frequencies of subcategorisation alternatives for individual verbal predicates. However, the empirical question of whether this type of frequency information can in practice improve the accuracy of a statistical parser has not yet been answered. In this paper we describe an experiment with a wide-coverage statistical grammar and parser for English and subcategorisation frequencies acquired from ten million words of text which shows that this information can significantly improve parse accuracy.

研究动机与目标

评估大型语料库中的子类化频率数据是否能提升统计解析器的性能。
解决一个开放的实证问题：即在概率语法中整合子类化频率是否能带来可测量的解析准确率提升。
将从英国国家语料库获取的子类化频率数据整合到现有的广泛覆盖英语统计解析器中。
评估子类化概率对句法关系恢复和结构准确率的影响。

提出的方法

本研究采用基于词汇化概率语法的广泛覆盖统计解析器，该语法最初由Carroll和Briscoe（1996）开发。
通过使用稳健的统计解析器和子类化类别分类器，从英国国家语料库的1000万词中获取了动词谓词的子类化频率。
通过将从语料库中提取的子类化概率整合到解析器中，增强了其功能，使其能够基于词汇频率数据对句法结构进行排序。
使用包含500个句子、涵盖多种语体的测试语料库，评估基线版本和词汇化版本的解析器。
从基线解析器和词汇化解析器的输出中提取并比较句法关系，以衡量准确率的提升。
进行了定性错误分析，按类型对解析错误进行分类和检查，包括补足语、修饰语、并列结构、文本附加语以及错误分组。

实验结果

研究问题

RQ1来自大型语料库的子类化频率数据是否能提升统计解析器在恢复句法关系方面的准确性？
RQ2与基线模型相比，子类化概率的引入在多大程度上增强了解析器对句法结构的建模能力？
RQ3哪些类型的解析错误最易受到子类化频率信息整合的影响？
RQ4词汇化解析器在多大程度上更准确地反映了测试语料库中观察到的结构分布？

主要发现

与基线解析器相比，词汇化解析器在句法关系错误上减少了15.8%，错误数从144例降至124例。
词汇化解析器平均每句产生4.15个句法关系，与测试语料库的平均值4.15极为接近，表明其与真实世界数据分布的匹配度更高。
基线解析器平均每句产生4.65个句法关系，表明其存在系统性地生成语料库中不存在的关系。
补足语错误是最常见的错误类型，词汇化版本中有124例，其中115例为动词性错误，包括主动语态与被动语态的误分析。
该系统在处理短语动词和并列的动词词组时表现尤为困难，因为当前从VSubcat值到子类化类别的映射机制无法处理嵌套的短语动词结构。
定性分析显示，在134例修饰语错误中，有20例是介词短语错误地依附到更高的动词短语而非目标名词短语；在30例文本附加语错误中，有8例是逗号分隔的句子附加语被错误地低层级依附。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。