[论文解读] An Efficient Probabilistic Context-Free Parsing Algorithm that Computes Prefix Probabilities
本文提出了一种基于Earley的高效概率上下文无关文法解析算法,可在单次从左到右的遍历中计算前缀概率、子串生成概率、Viterbi解析和期望产生式计数。该算法扩展了Earley的自顶向下控制结构,无需文法标准化即可高效处理稀疏文法,支持增量概率计算,并能对语法不正确的输入实现鲁棒解析。
We describe an extension of Earley's parser for stochastic context-free grammars that computes the following quantities given a stochastic context-free grammar and an input string: a) probabilities of successive prefixes being generated by the grammar; b) probabilities of substrings being generated by the nonterminals, including the entire string being generated by the grammar; c) most likely (Viterbi) parse of the string; d) posterior expected number of applications of each grammar production, as required for reestimating rule probabilities. (a) and (b) are computed incrementally in a single left-to-right pass over the input. Our algorithm compares favorably to standard bottom-up parsing methods for SCFGs in that it works efficiently on sparse grammars by making use of Earley's top-down control structure. It can process any context-free rule format without conversion to some normal form, and combines computations for (a) through (d) in a single algorithm. Finally, the algorithm has simple extensions for processing partially bracketed inputs, and for finding partial parses and their likelihoods on ungrammatical inputs.
研究动机与目标
- 开发一种在从左到右输入处理过程中增量计算前缀概率的解析算法。
- 在无需转换为正规形式的情况下,支持对稀疏文法的高效解析。
- 在一个统一的算法中联合计算多种概率解析量——子串概率、Viterbi解析和期望产生式计数。
- 通过简单扩展,实现对部分加括号或语法不正确的输入的鲁棒解析。
提出的方法
- 在Earley解析框架中引入概率推理,使用前向概率和内部概率。
- 在从左到右扫描输入的过程中增量计算前向概率。
- 通过预测和完成步骤并结合概率传播来维护状态概率。
- 通过预测和完成循环处理递归,包括对空(ε)产生式的支持。
- 通过使用外部概率的反向传递计算期望产生式计数。
- 通过在图表中预置部分括号结构并组装部分解析,支持鲁棒解析。
实验结果
研究问题
- RQ1如何在随机上下文无关文法的从左到右解析过程中增量计算前缀概率?
- RQ2一种自顶向下的Earley风格算法能否在不进行文法标准化的情况下高效处理稀疏文法?
- RQ3如何在相同的解析框架内计算Viterbi解析和期望产生式计数?
- RQ4哪些扩展能够实现对语法不正确或部分加括号输入的鲁棒解析?
主要发现
- 该算法在单次从左到右的遍历中计算前缀概率和子串生成概率,对稀疏文法具有最优时间复杂度。
- 在完全参数化文法上性能与自底向上方法相当,而在稀疏文法上表现更优,得益于自顶向下的控制机制。
- 该方法无需文法变换即可精确计算Viterbi解析和期望产生式计数。
- 通过扩展可处理部分加括号输入,并识别其对应部分解析及其似然度。
- 该算法避免了将文法转换为正规形式的需要,保留了原始规则结构。
- 实验结果表明该算法高效且可扩展,时间复杂度随输入长度线性增长,随文法规模呈次立方增长。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。