Skip to main content
QUICK REVIEW

[论文解读] Enhancing Sentence Embedding with Generalized Pooling

Qian Chen, Zhen-Hua Ling|arXiv (Cornell University)|Jun 26, 2018
Topic Modeling参考文献 37被引用 59
一句话总结

本文提出基于向量的多头广义池化,加入惩罚项以降低冗余,在 SNLI、MultiNLI、Yelp 和 Age 数据集上实现最先进的句子嵌入。

ABSTRACT

Pooling is an essential component of a wide variety of sentence representation and embedding models. This paper explores generalized pooling methods to enhance sentence embedding. We propose vector-based multi-head attention that includes the widely used max pooling, mean pooling, and scalar self-attention as special cases. The model benefits from properly designed penalization terms to reduce redundancy in multi-head attention. We evaluate the proposed model on three different tasks: natural language inference (NLI), author profiling, and sentiment classification. The experiments show that the proposed model achieves significant improvement over strong sentence-encoding-based methods, resulting in state-of-the-art performances on four datasets. The proposed approach can be easily implemented for more problems than we discuss in this paper.

研究动机与目标

  • 通过能够捕捉句子多维面的广义池化,激发改进的句子嵌入。
  • 将标量注意力/池化扩展为基于向量的多头注意力,以丰富表示。
  • 引入惩罚项以降低注意力头之间及句子嵌入之间的冗余。
  • 在自然语言推理、作者画像和情感分类数据集上评估该方法。
  • 在多个数据集上展示相对于强基线的显著性能提升。

提出的方法

  • 构建一个基于 BiLSTM 的序列编码器,包含词嵌入和字符嵌入。
  • 开发产生多个注意向量的基于向量的多头注意力,将它们拼接为最终句子表示。
  • 提供三个惩罚项以促进注意头及其输出之间的多样性(作用于参数矩阵、注意矩阵和句子嵌入)。
  • 通过连接和逐元素运算融合用于 NLI 的句子嵌入,然后送入带快捷连接的两层MLP进行分类。
  • 端到端使用交叉熵损失训练;跨任务共享 MLP 架构用于句子级和成对分类。

实验结果

研究问题

  • RQ1基于向量的多头注意力是否优于标量注意力方法在句子嵌入上的提升?
  • RQ2惩罚项在降低注意头冗余和提升性能上的影响?
  • RQ3广义池化在 NLI、作者画像和情感分类任务上的表现相对于强基线如何?
  • RQ4哪些数据集特定设置(如头的数量、头维度、训练策略)能最大化增益?

主要发现

  • 在测试集上达到最先进的 SNLI 准确率 86.6%(之前最佳为 86.3%)。
  • 在 MultiNLI 上,达到 73.8% 的域内准确率和 74.0% 的跨域准确率(跨域最佳结果为 74.0%)。
  • 在 Yelp 和 Age 数据集上,广义池化模型分别达到 66.55%(Yelp)和 82.63%(Age),均超过强基线。
  • 基于向量的更多头的注意力优于标量注意力;9-head 模型达到最佳开发集准确率(86.8% 对比标量的 86.4%)。
  • 惩罚项在多个数据集上显著提升性能,参数矩阵惩罚在若干任务上带来最大的增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。