QUICK REVIEW
[论文解读] Three Generative, Lexicalised Models for Statistical Parsing
Michael J. Collins|ArXiv.org|Jun 17, 1997
Natural Language Processing Techniques参考文献 9被引用 50
一句话总结
本文提出了三种生成式、词法化的统计解析模型,通过在概率上下文无关语法框架中引入子句范畴化和疑问词移位,改进了先前的工作。最佳模型在华尔街日报数据集上的精确率为88.1%,召回率为87.5%,相较于先前方法平均提升了2.3%,同时生成了包含显式子句范畴化和痕迹信息的语法更丰富的解析树。
ABSTRACT
In this paper we first propose a new statistical parsing model, which is a generative model of lexicalised context-free grammar. We then extend the model to include a probabilistic treatment of both subcategorisation and wh-movement. Results on Wall Street Journal text show that the parser performs at 88.1/87.5% constituent precision/recall, an average improvement of 2.3% over (Collins 96).
研究动机与目标
- 开发一种生成式、词法化的统计解析模型,以在成分解析准确率上超越现有的判别式模型。
- 将子句范畴化框架整合到解析模型中,以增强句法泛化能力并支持谓词-论元结构抽取。
- 利用广义短语结构语法的见解,以概率方式建模疑问词移位,实现对嵌套从句中痕迹位置的检测。
- 生成包含更丰富语言结构的解析树,包括补语/状语区分和痕迹标记,以提升在下游自然语言处理应用中的实用性。
提出的方法
- 该模型通过自顶向下的推导估计P(T,S),其中P(T,S)被分解为句法成分生成概率、左修饰语与右修饰语概率以及STOP符号概率。
- 通过P(H|P,h)建模头词选择,其中H为句法成分,P为父节点,h为头词,从而实现词法化规则生成。
- 左、右修饰语通过以父节点、头词及头成分作为条件的0阶马尔可夫过程生成,并以STOP符号终止修饰语序列。
- 通过基于头词及其句法环境的概率分配,对补语/状语框架进行建模。
- 通过在推导过程中引入痕迹位置来建模疑问词移位,痕迹位置的概率基于广义短语结构语法学的句法约束进行分配。
- 解析器通过Viterbi近似选择P(T|S)最高的解析树,将最大化P(T,S)作为P(T|S)的代理。
实验结果
研究问题
- RQ1生成式、词法化解析模型是否能在成分解析准确率上超越[Collins 96]等判别式模型?
- RQ2子句范畴化框架是否可有效整合进概率解析框架,以提升句法泛化能力?
- RQ3疑问词移位是否可在生成式解析框架中以概率方式建模,从而实现对嵌套从句中痕迹位置的检测?
- RQ4整合子句范畴化和疑问词移位等语言现象是否能同时提升解析准确率并生成更具语言学信息的解析输出?
主要发现
- 模型1是[Collins 96]模型的生成式版本,在华尔街日报数据集上实现88.1%的精确率和87.5%的召回率,相较于[Collins 96]平均提升2.3%。
- 模型2中引入子句范畴化框架进一步提升了解析性能,对最终结果有显著贡献。
- 模型3成功实现了疑问词移位的建模,生成的解析树包含反映句法移位的痕迹标记,增强了结构信息。
- 与先前模型相比,该解析器生成了更具语言学信息的输出,显式编码了补语/状语区分及痕迹位置,这对谓词-论元结构抽取至关重要。
- 生成式框架允许基于先前生成的结构进行条件建模,相比仅依赖表面字符串特征的模型,实现了更灵活、更精确的建模。
- 该模型可作为语言模型使用,句子概率通过P(S) ≈ P(T_best, S)估算,表明其在语音识别及其他自然语言处理任务中具有潜在应用价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。