[论文解读] Training with Exploration Improves a Greedy Stack-LSTM Parser
本文提出使用动态oracle而非静态oracle来训练贪心堆栈-LSTM依存句法分析器,使模型能够在训练过程中从自身的预测错误中学习。通过在标准答案与模型生成的解析状态之间进行插值,该方法提升了泛化能力,在英语上达到93.56 UAS的性能,创下贪心解析器的新SOTA记录,同时保持线性解析速度。
We adapt the greedy Stack-LSTM dependency parser of Dyer et al. (2015) to support a training-with-exploration procedure using dynamic oracles(Goldberg and Nivre, 2013) instead of cross-entropy minimization. This form of training, which accounts for model predictions at training time rather than assuming an error-free action history, improves parsing accuracies for both English and Chinese, obtaining very strong results for both languages. We discuss some modifications needed in order to get training with exploration to work well for a probabilistic neural-network.
研究动机与目标
- 解决贪心神经依存句法分析器在训练与推理之间存在的不匹配问题,即训练时假设历史动作完全正确,而推理时使用模型预测的动作。
- 通过在非标准答案、模型生成的解析状态上进行训练,提升贪心堆栈-LSTM解析器的鲁棒性。
- 将Goldberg和Nivre(2013)提出的动态oracle框架适配至概率神经网络过渡式解析器。
- 评估在训练过程中引入探索是否能提升解析准确率,同时不牺牲贪心推理速度。
- 在多语言依存句法分析基准上,确立贪心解析器的SOTA性能。
提出的方法
- 用动态oracle替代静态oracle,后者根据不完美的(模型预测的)解析历史选择最优动作,而非假设存在标准答案的历史。
- 在训练过程中使用混合系数α,对标准答案与模型生成的解析状态进行插值,其中α=0.75在英语上被选为最优值。
- 使用堆栈-LSTM将解析状态编码为固定维向量p_t,再通过动作嵌入g_z与偏置q_z的softmax计算动作概率。
- 使用反向传播训练模型,优化目标为动态oracle所选择的动作序列的负对数似然,而非标准答案序列。
- 通过使用具有常数时间状态更新的堆栈-LSTM,保持线性解析速度,从而在测试时保留贪心解码的效率。
- 将该方法应用于Dyer等人(2015)的堆栈-LSTM解析器,采用相同的架构与训练设置,但将监督信号修改为包含探索机制。
实验结果
研究问题
- RQ1在非标准答案、模型生成的解析状态上训练贪心堆栈-LSTM解析器,是否能提升其在测试时的预测性能?
- RQ2在训练中使用考虑预测误差的动态oracle,是否比假设历史完全正确的静态oracle具有更好的泛化能力?
- RQ3在标准答案与模型生成状态之间插值(由α控制)对不同语言的解析准确率有何影响?
- RQ4该方法是否能在不增加推理时间的前提下,实现贪心解析器的SOTA性能?
- RQ5使用预训练词嵌入是否会放大探索训练带来的优势?
主要发现
- 与静态oracle训练相比,动态oracle训练方法显著提升了解析准确率,在英语CoNLL 2009测试集上达到93.56 UAS,为目前报告的贪心解析器最高结果。
- 该方法在中文CoNLL 2009语料库上创下贪心解析器的新SOTA记录,达到92.62 UAS。
- 当使用预训练词嵌入时,性能提升最为显著,英语的最优插值系数α=0.75。
- 在静态oracle训练下,弧混合过渡系统略逊于弧标准系统,但通过动态oracle训练后性能显著提升。
- 与静态oracle基线相比,该方法在所有测试语言(英语、中文、德语、西班牙语)中均一致提升性能,即使在使用束搜索时亦然。
- 该方法保持了原始贪心堆栈-LSTM解析器的线性解析速度,适用于高吞吐量应用场景。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。