QUICK REVIEW

[论文解读] From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood

Kelvin Guu, Panupong Pasupat|arXiv (Cornell University)|Apr 25, 2017

Topic Modeling参考文献 38被引用 41

一句话总结

该论文提出RandoMer，一种新颖的学习算法，将强化学习（RL）与最大边际似然（MML）相结合，以在间接监督下提升神经语义解析的性能。通过结合随机束搜索进行探索，以及使用β-功绩公平梯度更新来公平分配正确程序的权重，RandoMer显著减少了对虚假程序的过拟合，并在SCONE基准上实现了最先进性能，在最具有挑战性的领域中准确率提升超过30%。

ABSTRACT

Our goal is to learn a semantic parser that maps natural language utterances into executable programs when only indirect supervision is available: examples are labeled with the correct execution result, but not the program itself. Consequently, we must search the space of programs for those that output the correct result, while not being misled by spurious programs: incorrect programs that coincidentally output the correct result. We connect two common learning paradigms, reinforcement learning (RL) and maximum marginal likelihood (MML), and then present a new learning algorithm that combines the strengths of both. The new algorithm guards against spurious programs by combining the systematic search traditionally employed in MML with the randomized exploration of RL, and by updating parameters such that probability is spread more evenly across consistent programs. We apply our learning algorithm to a new neural semantic parser and show significant gains over existing state-of-the-art results on a recent context-dependent semantic parsing task.

研究动机与目标

为解决从间接监督中学习语义解析器的挑战，即仅提供正确执行输出，而非真实程序。
通过改进探索与梯度更新，缓解虚假程序问题——即错误程序偶然产生正确输出。
通过统一两者目标并结合其优势，弥合强化学习与最大边际似然（MML）之间的鸿沟。
开发一种神经语义解析器，以栈式语言生成程序，实现对上下文相关语言现象（如省略与回指）的有效处理。
通过减少对虚假程序的过拟合，在SCONE数据集上实现最先进性能，尤其在最具挑战性的领域中。

提出的方法

提出随机束搜索，一种混合探索策略，结合MML的系统性束搜索与RL的随机离策略探索，即使在束大小较小或初始化不佳时，也能有效发现正确程序。
引入β-功绩公平参数更新规则，使所有产生正确输出的程序在梯度更新中获得更均衡的贡献，减少对低概率但虚假程序的过拟合。
通过证明RL与MML的目标函数密切相关，实现两者目标的连接，从而可直接将RL的探索与方差减少技术迁移至MML。
采用神经模型输出栈式编程语言的程序，专为处理上下文相关语言现象（如省略与回指）而设计。
使用边际似然估计进行模型训练，无需黄金程序，最大化所有可能程序中观察到正确输出的概率。
在梯度更新中应用指数平滑，以增强对一致程序的概率分配均匀性，提升对虚假解的鲁棒性。

实验结果

研究问题

RQ1能否通过结合RL的探索策略与MML的系统性搜索，提升在间接监督下语义解析中正确程序的发现能力？
RQ2如何修改梯度更新机制，以减少对偶然产生正确输出的虚假程序的过拟合？
RQ3β-功绩公平更新规则（使所有正确程序的梯度贡献相等）与标准MML或RL目标相比，能在多大程度上提升泛化性能？
RQ4使用RandoMer训练的神经语义解析器能否在上下文相关语义解析基准（如SCONE）上超越现有最先进模型？
RQ5随机束搜索与功绩公平更新的结合，是否能产生比标准RL或MML基线更鲁棒、更具泛化能力的程序生成？

主要发现

RandoMer在SCONE数据集上显著优于标准强化学习与最大边际似然基线，在所有三个领域均达到新的最先进性能。
在SCONE中最具挑战性的领域中，RandoMer相比Long等人（2016）的先前最先进模型，准确率提升超过30%。
β-功绩公平更新规则通过确保所有正确程序（无论初始概率高低）在梯度更新中公平贡献，有效减少了对虚假程序的过拟合。
随机束搜索增强了探索能力，使模型即使在策略分布集中或束大小较小时，也能发现正确程序。
该方法无需黄金程序或在标注序列上的预训练，适用于弱监督语义解析。
系统性搜索与随机探索的结合，相比单一方法，能实现更可靠、更具泛化能力的程序生成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。