QUICK REVIEW

[论文解读] An Introductory Survey on Attention Mechanisms in NLP Problems

Dichao Hu|arXiv (Cornell University)|Nov 12, 2018

Topic Modeling参考文献 25被引用 40

一句话总结

本文综述了自然语言处理中的注意力机制，详细介绍了基本表述、变体（多维、层次、自注意力、基于记忆、任务特定）、应用、评估方法，以及与预训练和集成的联系。

ABSTRACT

First derived from human intuition, later adapted to machine translation for automatic token alignment, attention mechanism, a simple method that can be used for encoding sequence data based on the importance score each element is assigned, has been widely applied to and attained significant improvement in various tasks in natural language processing, including sentiment classification, text summarization, question answering, dependency parsing, etc. In this paper, we survey through recent works and conduct an introductory summary of the attention mechanism in different NLP problems, aiming to provide our readers with basic knowledge on this widely used method, discuss its different variants for different tasks, explore its association with other techniques in machine learning, and examine methods for evaluating its performance.

研究动机与目标

解释注意力的基本形式及其数学表述。
整理并描述用于不同NLP任务的关键注意力变体。
探讨注意力与其他机器学习技术（预训练、集成）的交互。
综述跨任务的注意力机制评估方法。

提出的方法

给出带有注意力分数 e_i、归一化权重 α_i、以及上下文向量 c 的基本注意力表述。
介绍并解释变体：多维、层次、自注意力、基于记忆以及任务特定的注意力。
描述自注意力（Transformer）中使用的扩展，包括位置编码与掩蔽。
讨论带多跳更新和键值设计的基于记忆的注意力。
将注意力与集成、门控以及预训练应用联系起来，包括 BERT 与 GPT。

实验结果

研究问题

RQ1在NLP中，注意力的核心数学表述是什么？
RQ2注意力的主要变体及其在各任务中的具体用例是什么？
RQ3注意力机制如何与预训练、集成等其他技术结合？
RQ4注意力机制如何在内在和外在方面进行评估？

主要发现

注意力通过根据学习到的对齐分数对输入元素进行加权来计算上下文表示。
为处np increasingly复杂的NLP任务，提出了多种注意力变体（如层次化和基于记忆的注意力）。
自注意力和基于Transformer的架构实现并行计算并对标记进行深层上下文化。
基于注意力的预训练模型（如 BERT、OpenAI GPT）通过联合学习表示与上下文依赖性来实现强劲性能。
使用定性可视化（热力图）和定量指标来评估注意力，包含内在对齐基础的评估以及外在任务基础的评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。