QUICK REVIEW

[论文解读] Deep State Space Models for Unconditional Word Generation

Florian Schmidt, Thomas Hofmann|arXiv (Cornell University)|Jun 12, 2018

Topic Modeling被引用 6

一句话总结

本文提出一种用于无条件词生成的非自回归深度状态空间模型，通过状态转移中的噪声分离全局不确定性（全局不确定性）与词元发射中的局部不确定性（局部不确定性）。利用归一化流进行变分推断，该模型在无需教师强制的情况下实现了与自回归RNN相当的性能，证明了随机性可被清晰解耦，并可通过重要性加权变分推断有效训练。

ABSTRACT

Autoregressive feedback is considered a necessity for successful unconditional text generation using stochastic sequence models. However, such feedback is known to introduce systematic biases into the training process and it obscures a principle of generation: committing to global information and forgetting local nuances. We show that a non-autoregressive deep state space model with a clear separation of global and local uncertainty can be built from only two ingredients: An independent noise source and a deterministic transition function. Recent advances on flow-based variational inference can be used to train an evidence lower-bound without resorting to annealing, auxiliary losses or similar measures. The result is a highly interpretable generative model on par with comparable auto-regressive models on the task of word generation.

研究动机与目标

解决训练过程中因教师强制导致的自回归模型系统性偏差问题。
探究是否可通过全局与局部不确定性的清晰分离实现有效的无条件文本生成。
开发一种高度可解释的生成模型，避免使用辅助损失、温度退火或预训练。
通过将状态转移中的噪声与发射不确定性分离，评估随机性在序列建模中的作用。

提出的方法

提出一种深度状态空间模型，其确定性转移函数为 F(ht, ξt) = ht+1，由i.i.d.高斯噪声 ξt 驱动。
分离随机性：全局不确定性来自状态演化中的噪声 ξt，局部不确定性来自 P(wt|ht) 的词元发射。
采用结构化推理模型 q(ht|ht−1, wt:T) 进行变分推断，以近似真实后验分布。
使用归一化流（TRI、REAL-NVP）对生成与推理模型中的复杂、可计算的转移分布进行建模。
应用重要性加权变分推断（IWVI），使用 K=10 个样本以提升训练稳定性和性能。
通过证据下界（ELBO）端到端训练模型，平衡重建损失与后验差异。

实验结果

研究问题

RQ1具有全局与局部不确定性清晰分离的非自回归状态空间模型是否可在无需教师强制的情况下生成高质量文本？
RQ2此类模型在无条件词生成任务上的性能与标准自回归RNN相比如何？
RQ3在建模序列复杂性时，状态转移中的随机性与发射不确定性各自扮演什么角色？
RQ4归一化流是否可实现无需辅助损失或温度退火的深度状态空间模型的有效训练？
RQ5在训练过程中，潜在状态与观测之间的互信息如何演变？

主要发现

所提模型在词素性任务上的测试交叉熵为 11.28，优于基线RNN（12.97），并接近最优模型（7.03）。
使用 K=10 重要性权重显著提升了结果，且 K>10 后收益递减，表明方差有效降低。
采用 2×TRIL 流且 K=10 时达到最佳性能（H[Ptest, ˆP] = 11.28），表明强大生成流至关重要。
互信息 I(t) 在序列初期达到峰值并随时间递减，证实初始词元携带更多潜在信息。
采用 2×TRIL 流且 K=10 的模型平均互信息达 1.28，表明潜在状态中有效保留了信息。
推理模型性能与双向版本相当，验证了 d-分离假设，并表明状态记忆已足够。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。