Skip to main content
QUICK REVIEW

[论文解读] Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis

Yi Tay, Anh Tuan Luu|arXiv (Cornell University)|Dec 14, 2017
Sentiment Analysis and Opinion Mining参考文献 18被引用 27
一句话总结

该论文提出了一种新型神经架构——基于方面融合的长短期记忆网络(AF-LSTM),通过循环卷积和关联融合建模词与方面之间的关系,从而实现更有效的注意力机制。AF-LSTM在基准测试中平均性能优于ATAE-LSTM 4%-5%,同时参数量更少。

ABSTRACT

Aspect-based sentiment analysis (ABSA) tries to predict the polarity of a given document with respect to a given aspect entity. While neural network architectures have been successful in predicting the overall polarity of sentences, aspect-specific sentiment analysis still remains as an open problem. In this paper, we propose a novel method for integrating aspect information into the neural model. More specifically, we incorporate aspect information into the neural model by modeling word-aspect relationships. Our novel model, extit{Aspect Fusion LSTM} (AF-LSTM) learns to attend based on associative relationships between sentence words and aspect which allows our model to adaptively focus on the correct words given an aspect term. This ameliorates the flaws of other state-of-the-art models that utilize naive concatenations to model word-aspect similarity. Instead, our model adopts circular convolution and circular correlation to model the similarity between aspect and words and elegantly incorporates this within a differentiable neural attention framework. Finally, our model is end-to-end differentiable and highly related to convolution-correlation (holographic like) memories. Our proposed neural model achieves state-of-the-art performance on benchmark datasets, outperforming ATAE-LSTM by $4\%-5\%$ on average across multiple datasets.

研究动机与目标

  • 解决现有基于注意力的模型(如ATAE-LSTM)因简单拼接方面嵌入与词嵌入而导致的训练稳定性差和参数成本高的局限性。
  • 设计一个专用的关联层,显式建模方面术语与上下文词之间的关系,将此任务与序列建模及注意力学习解耦。
  • 通过循环卷积和相关性实现类全息表示,提升注意力机制的有效性,为词-方面交互提供更丰富、可微分的关联记忆。
  • 通过用更高效的融合机制(如循环卷积和逐元素相乘)替代拼接操作,降低模型复杂度,同时提升性能。
  • 证明通过循环卷积实现的关联融合在方面感知注意力学习中显著优于拼接和标准Hadamard积。

提出的方法

  • 提出一种新颖的词-方面关联层,利用循环卷积和循环相关性计算方面嵌入与词嵌入之间的相似性。
  • 将循环卷积作为主要关联算子,受全息压缩表示启发,学习词-方面关系的高阶、压缩表示。
  • 将融合后的词-方面表示集成到可微分注意力机制中,使模型能够基于方面上下文动态关注相关词语。
  • 通过用所提出的关联融合层替换ATAE-LSTM中的拼接融合,构建AF-LSTM架构,保持端到端可微性。
  • 评估多种融合变体:循环卷积(CONV)、循环相关性(CCOR)和逐元素相乘(MUL),以识别最有效的关联算子。
  • 使用标准反向传播进行端到端训练,注意力层仅负责加权融合表示,而不学习词-方面关系。

实验结果

研究问题

  • RQ1专用的关联融合层是否能通过显式建模词-方面关系,提升基于方面的情感分析中注意力机制的性能?
  • RQ2循环卷积是否在学习词-方面交互方面优于其他关联算子(如循环相关性或逐元素相乘)?
  • RQ3用关联融合替代拼接操作,是否能在保持性能的同时降低模型复杂度,相比ATAE-LSTM更具优势?
  • RQ4与强基线模型(如AT-LSTM和ATAE-LSTM)相比,所提出的AF-LSTM在不同数据集和分类设置(二分类与三分类)下的表现如何?
  • RQ5定性分析表明,该模型的注意力机制在多方面上的适应能力如何,是否能正确地根据不同方面调整关注焦点?

主要发现

  • 采用循环卷积的AF-LSTM(AF-LSTM CONV)在多个基准数据集上平均性能达到最先进水平,相比ATAE-LSTM提升4%-5%。
  • AF-LSTM(CONV)在所有设置中显著优于ATAE-LSTM,三分类任务中提升达3%-8%,二分类任务中提升2%-3%。
  • AF-LSTM的逐元素相乘(MUL)变体相比AT-LSTM提升约1%,相比ATAE-LSTM提升约3%,表明简单融合机制可能比拼接更有效。
  • 循环卷积优于循环相关性,可能是因为后者的非对称性在词与方面角色可互换时会降低性能。
  • AF-LSTM参数量(约81万)少于AT-LSTM(约110万)和ATAE-LSTM(约140万),证明其在不损失性能的前提下具备更高效率。
  • 定性分析确认,AF-LSTM能根据方面术语正确调整注意力焦点,而ATAE-LSTM在处理如'Appetizer'和'Service'等方面时无法一致地实现这一点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。