QUICK REVIEW

[论文解读] Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Tao Shen, Tianyi Zhou|arXiv (Cornell University)|Jan 31, 2018

Topic Modeling参考文献 34被引用 26

一句话总结

该论文提出了一种无需RNN/CNN的句子编码模型——强化自注意力网络（ReSAN），该模型结合了一种新型的可并行化硬注意力机制Reinforced Sequence Sampling（RSS）与软自注意力机制，以高效建模长序列中的稀疏依赖关系。通过使用RSS选择关键标记，并利用软注意力提供策略梯度奖励，ReSAN在SNLI和SICK基准上实现了SOTA性能，且参数更少、推理更快。

ABSTRACT

Many natural language processing tasks solely rely on sparse dependencies between a few tokens in a sentence. Soft attention mechanisms show promising performance in modeling local/global dependencies by soft probabilities between every two tokens, but they are not effective and efficient when applied to long sentences. By contrast, hard attention mechanisms directly select a subset of tokens but are difficult and inefficient to train due to their combinatorial nature. In this paper, we integrate both soft and hard attention into one context fusion model, "reinforced self-attention (ReSA)", for the mutual benefit of each other. In ReSA, a hard attention trims a sequence for a soft self-attention to process, while the soft attention feeds reward signals back to facilitate the training of the hard one. For this purpose, we develop a novel hard attention called "reinforced sequence sampling (RSS)", selecting tokens in parallel and trained via policy gradient. Using two RSS modules, ReSA efficiently extracts the sparse dependencies between each pair of selected tokens. We finally propose an RNN/CNN-free sentence-encoding model, "reinforced self-attention network (ReSAN)", solely based on ReSA. It achieves state-of-the-art performance on both Stanford Natural Language Inference (SNLI) and Sentences Involving Compositional Knowledge (SICK) datasets.

研究动机与目标

解决软注意力在长序列中因对平凡标记分配非零注意力而造成的效率低下与泛化能力差的问题。
克服硬注意力因组合选择过程导致的不可微性与训练缓慢问题。
整合硬注意力与软注意力机制，以相互提升训练稳定性和建模能力。
开发一种轻量级、无需RNN/CNN的句子编码架构，在保持高性能与高效性的同时实现优越表现。
在不依赖循环或卷积结构的前提下，实现在自然语言蕴含与语义相关性任务上的SOTA结果。

提出的方法

提出一种新型硬注意力机制——强化序列采样（RSS），通过策略梯度方法并行选择标记，避免顺序采样。
设计一种混合模型——强化自注意力（ReSA），其中两个RSS模块分别从输入序列的两份副本中独立选择主干与依赖标记。
利用软自注意力计算所选主干与依赖标记之间的注意力得分，仅聚焦于稀疏且有意义的依赖关系。
通过策略梯度（如REINFORCE）训练RSS模块，使用软自注意力提供的密集奖励信号作为奖励。
构建完整的句子编码模型ReSAN，完全基于ReSA实现，彻底摒弃RNN与CNN。
应用source2token自注意力机制，使模型可直接从所选标记进行预测，无需额外网络层。

实验结果

研究问题

RQ1结合硬注意力与软注意力的混合注意力机制是否能提升长序列上的建模效率与性能？
RQ2像RSS这样可并行化、非循环的硬注意力机制，是否能通过策略梯度实现有效训练并保持高性能？
RQ3将软注意力作为奖励信号是否能提升硬注意力在序列建模中的可训练性与准确性？
RQ4完全基于注意力机制、无需RNN/CNN的模型（如ReSAN）是否能在自然语言蕴含与语义相关性任务上超越现有架构？
RQ5与SOTA模型相比，该模型在保持或提升准确率的同时，参数量与推理时间的减少程度如何？

主要发现

ReSAN在官方SNLI排行榜上，作为所有句子编码模型中准确率最高的模型，创下新的SOTA记录。
在SICK数据集上，ReSAN在语义相关性任务中实现了SOTA性能，优于现有模型。
与循环网络、卷积网络甚至复杂的外部记忆模型相比，ReSAN参数更少，推理速度更快。
可视化结果表明，ReSA能有效选择语义重要词汇（如动词与名词）作为主干与依赖项，同时过滤掉大部分停用词。
软自注意力模块为构成语义组的有意义词对（如‘sit’与‘talk’）分配更高的注意力得分，证实了有效依赖关系建模。
RSS机制支持并行标记选择，显著提升了训练效率，优于顺序式硬注意力方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。