[论文解读] Backward and Forward Language Modeling for Constrained Sentence Generation
本文提出一种前后向(B/F)语言模型,通过独立建模目标词前后词语的方式,生成包含指定目标词的句子。该模型采用同步或异步RNN结构,在保证目标词出现在任意期望位置的同时,生成质量与标准序列语言模型相当。
Recent language models, especially those based on recurrent neural networks (RNNs), make it possible to generate natural language from a learned probability. Language generation has wide applications including machine translation, summarization, question answering, conversation systems, etc. Existing methods typically learn a joint probability of words conditioned on additional information, which is (either statically or dynamically) fed to RNN's hidden layer. In many applications, we are likely to impose hard constraints on the generated texts, i.e., a particular word must appear in the sentence. Unfortunately, existing approaches could not solve this problem. In this paper, we propose a novel backward and forward language model. Provided a specific word, we use RNNs to generate previous words and future words, either simultaneously or asynchronously, resulting in two model variants. In this way, the given word could appear at any position in the sentence. Experimental results show that the generated texts are comparable to sequential LMs in quality.
研究动机与目标
- 解决必须包含特定硬性约束词的自然语言句子生成挑战。
- 克服现有语言模型在附加信息条件下仍无法保证所需词语出现的局限性。
- 开发一种方法,生成流畅、连贯的句子,且目标词可出现在任意位置,而不仅限于句首。
- 确保模型在强制约束条件下,仍保持与标准序列语言模型相当的生成质量。
提出的方法
- 提出一种前后向(B/F)语言模型,将句子生成过程围绕给定目标词进行分割。
- 使用两个RNN:一个用于生成目标词之前的词语(后向),一个用于生成目标词之后的词语(前向),且均以目标词为条件。
- 实现两种变体:同步B/F(syn-B/F),其中两个RNN并行生成;异步B/F(asyn-B/F),其中生成按顺序进行。
- 通过目标词的嵌入向量对后向和前向RNN进行条件化,以确保其最终出现在句子中。
- 通过最大化完整句子的似然性进行模型训练,其中目标词固定在指定位置。
- 采用联合概率分解:p(w₁,…,wₜ₋₁, wₜ, wₜ₊₁,…,wₘ) = p(w₁,…,wₜ₋₁|wₜ) × p(wₜ) × p(wₜ₊₁,…,wₘ|wₜ),其中wₜ为约束词。
实验结果
研究问题
- RQ1能否设计一种语言模型,确保生成的句子中必然包含特定目标词,无论其位置如何?
- RQ2B/F语言模型在流畅性和困惑度方面与标准序列语言模型相比表现如何?
- RQ3在约束生成任务中,异步生成(asyn-B/F)是否优于同步或独立生成(sep-B/F)?
- RQ4随机词语分割在多大程度上影响困惑度?模型如何处理位置无关的约束?
主要发现
- 所提出的B/F语言模型成功在任意位置生成包含目标词的句子,克服了标准语言模型的关键局限。
- 当目标词被固定时,B/F模型的困惑度与序列语言模型相当(困惑度 < 100),表明其在约束条件下具备强大的建模能力。
- 异步B/F(asyn-B/F)生成的句子质量优于独立或同步变体,其流畅性和连贯性与序列语言模型相当。
- 对于句子中靠后的位置(t ≥ 4),B/F模型的困惑度几乎与序列语言模型相同,表明其具备强大的长距离建模能力。
- 在生成如“systems”或“models”等约束词时,该模型优于基线模型,能生成语法正确且主题相关的句子,而序列语言模型常无法包含这些词。
- 随机词语分割会因不确定性导致困惑度上升,但当目标词可提前获知时(oracle设置),该影响可被有效缓解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。