[论文解读] Latent Alignment and Variational Attention
该论文提出变分注意力作为神经注意力的潜在对齐模型,展示变分(分类)注意力在NMT和VQA上可以超越软注意力和硬注意力,同时保持与软注意力相当的训练效率。
Neural attention has become central to many state-of-the-art models in natural language processing and related domains. Attention networks are an easy-to-train and effective method for softly simulating alignment; however, the approach does not marginalize over latent alignments in a probabilistic sense. This property makes it difficult to compare attention to other alignment approaches, to compose it with probabilistic models, and to perform posterior inference conditioned on observed data. A related latent approach, hard attention, fixes these issues, but is generally harder to train and less accurate. This work considers variational attention networks, alternatives to soft and hard attention for learning latent variable alignment models, with tighter approximation bounds based on amortized variational inference. We further propose methods for reducing the variance of gradients to make these approaches computationally feasible. Experiments show that for machine translation and visual question answering, inefficient exact latent variable models outperform standard neural attention, but these gains go away when using hard attention based training. On the other hand, variational attention retains most of the performance gain but with training speed comparable to neural attention.
研究动机与目标
- 在注意力中激发潜在变量对齐,超越软注意力。
- 开发具摊销推理的变分注意力架构(分类和松弛)。
- 收紧边际似然的界限,以改进对齐估计。
- 在 NMT 和 VQA 上对变分注意力与软注意力和硬注意力进行经验比较。
- 研究能实现可扩展潜在对齐模型的训练与推理策略。
提出的方法
- 将潜在对齐形式化为从对齐分布 a(x, tilde{x}; theta) 中抽取的 z。
- 引入两种变分注意力变体:分类(带 REINFORCE 基线的摊销 VI)和松弛(Dirichlet)注意力。
- 使用摊销推断网络 enc 来参数化 q(z; lambda),并通过 KL 正则化优化 ELBO。
- 通过变分界来将目标函数与 log p(y|x, tilde{x}) 绑定进行训练,从而改进梯度估计(基线、REINFORCE 或重新参数化)。
- 应用到 Neural Machine Translation (NMT) 与 Visual Question Answering (VQA),配备领域特定的编码器和注意力模块。
实验结果
研究问题
- RQ1在实际中,通过变分推理边际化潜在对齐是否比软注意力和硬注意力更优?
- RQ2变分注意力能否在不带来高昂训练成本的前提下,提供更好的后验对齐和可解释性?
- RQ3在 NMT 与 VQA 中,分类变分对齐与松弛(Dirichlet)变分对齐的比较如何?
- RQ4哪些训练/推理策略(基线、REINFORCE、Gumbel-Softmax、RWS)最能稳定变分注意力?
- RQ5在可行时,是否精确边际似然更有利,以及变分方法能在多大程度接近它?
主要发现
- 在可行时,精确边际似然可以优于软注意力。
- 变分(分类)注意力在 NMT 和 VQA 的对数似然度量上超过软注意力和硬注意力,且训练效率接近软注意力。
- 硬注意力的表现不及软注意力,表明 Jensen不等式在实际中是一个较差的界。
- 在 NMT 中,带枚举或采样的变分注意力在标准基准(包括 WMT13/17 规模)上,BLEU 和 PPL 达到或优于软、硬基线。
- 松弛(Dirichlet)注意力在实验中相较于分类变体表现较差,但提供了后验推断能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。