QUICK REVIEW

[论文解读] Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding

Deunsol Yoon, Dongbok Lee|arXiv (Cornell University)|Aug 22, 2018

Topic Modeling参考文献 14被引用 40

一句话总结

本文提出了 Dynamic Self-Attention (DSA)，一种受胶囊网络启发的自注意力机制，具有动态权重向量，在参数量极少的情况下在 SNLI 上达到最新水平，并在 SST 上表现具有竞争力。

ABSTRACT

In this paper, we propose Dynamic Self-Attention (DSA), a new self-attention mechanism for sentence embedding. We design DSA by modifying dynamic routing in capsule network (Sabouretal.,2017) for natural language processing. DSA attends to informative words with a dynamic weight vector. We achieve new state-of-the-art results among sentence encoding methods in Stanford Natural Language Inference (SNLI) dataset with the least number of parameters, while showing comparative results in Stanford Sentiment Treebank (SST) dataset.

研究动机与目标

为句子嵌入构建灵活的注意力机制，以超越静态权重向量。
将动态路由的概念应用于创建动态自注意力权重。
证明 DSA 能在较少参数和高效计算的前提下实现强大的 SNLI 结果。

提出的方法

构建带有密集连接的 CNN 以对单词表示进行编码。
通过在跨单词的共享矩阵投影单词嵌入，并通过受动态路由启发的过程迭代地细化一个动态权重向量，来实现 Dynamic Self-Attention (DSA)。
将多个注意力 z1,...,zm 连接起来形成最终句子嵌入 z。
用 tanh 替代胶囊特定组件（如 squash）以实现标量神经元，并为每个单词使用单一向量来进行注意力。
在单一与多重 DSA 设置中分别使用 600-d 与 300-d，配合 Leaky ReLU 激活和 dropout 进行正则化。
在 SNLI 和 SST 任务上使用交叉熵评估，训练时固定 GloVe 嵌入。

实验结果

研究问题

RQ1动态、输入相关的权重向量是否能提升相对于静态自注意力的句子嵌入质量？
RQ2DSA 是否能够在参数更少、训练时间更快的前提下，在 SNLI 和 SST 基准上实现具有竞争力或最新水平的性能？
RQ3注意力的数量（m）与投影设置如何影响性能与效率？

主要发现

单一的 DSA 在 SNLI 测试集上达到 86.8% 的最新水平精度，参数量为 210 万。
多重 DSA 进一步提升了 SNLI 的性能，相较基线自注意力有显著的相对增益。
在 SST 上，单一 DSA 达到 SST-2 的 88.5%、SST-5 的 50.6%，展现出具有竞争力的结果。
DSA 以较少的参数量和更快的每轮训练时间（例如 135 s/轮）超越了若干 SNLI 的基线。
动态权重向量在不同句子中呈现多样化的方向，体现了自适应注意力的特性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。