QUICK REVIEW

[论文解读] Select-Additive Learning: Improving Cross-individual Generalization in Multimodal Sentiment Analysis.

Haohan Wang, Aaksha Meghawat|arXiv (Cornell University)|Sep 16, 2016

Sentiment Analysis and Opinion Mining参考文献 21被引用 28

一句话总结

本文提出选择-加性学习（SAL），一种两阶段方法，通过选择混淆表征并添加高斯噪声以消除它们，从而提升多模态情感分析中的跨个体泛化能力。SAL 在文本、音频、视频及其融合任务中均提升了准确率，即使模型在某一数据集上训练而在另一数据集上测试，依然表现优异。

ABSTRACT

Multimodal sentiment analysis is drawing an increasing amount of attention these days. It enables mining of opinions in video reviews and surveys which are now available aplenty on online platforms like YouTube. However, the limited number of high-quality multimodal sentiment data samples may introduce the problem of the sentiment being dependent on the individual specific features in the dataset. This results in a lack of generalizability of the trained models for classification on larger online platforms. In this paper, we first examine the data and verify the existence of this dependence problem. Then we propose a Select-Additive Learning (SAL) procedure that improves the generalizability of trained discriminative neural networks. SAL is a two-phase learning method. In Selection phase, it selects the confounding learned representation. In Addition phase, it forces the classifier to discard confounded representations by adding Gaussian noise. In our experiments, we show how SAL improves the generalizability of state-of-the-art models. We increase prediction accuracy significantly in all three modalities (text, audio, video), as well as in their fusion. We show how SAL, even when trained on one dataset, achieves good accuracy across test datasets.

研究动机与目标

解决情感模型在多模态情感数据集中对个体特异性特征过拟合的问题。
提升判别性神经网络在用户人口统计特征各异的多样化在线平台上的泛化能力。
开发一种减少对个体特异性特征依赖的训练过程，同时保留模态特异性的情感信息。
使最先进模型在迁移到具有不同说话人特征的未见数据集时，仍能保持高性能。

提出的方法

在选择阶段，SAL 识别并隔离神经网络中受个体特异性特征混淆的表征。
在添加阶段，向选定的混淆表征中注入高斯噪声，以抑制分类器对它们的依赖。
该方法作为两阶段训练流程运行：首先选择问题特征，然后通过噪声注入进行正则化。
噪声注入作为一种对抗性正则化形式，迫使分类器学习更鲁棒、解耦的表征。
该方法与现有多模态融合架构兼容，可应用于文本、音频和视频模态。
该方法设计为模块化，可无缝集成到各种最先进模型中，无需对网络架构进行大规模修改。

实验结果

研究问题

RQ1多模态数据集中个体特异性特征在多大程度上阻碍了情感分类模型的泛化？
RQ2一种先选择后去混淆表征的两阶段学习过程，能否提升多模态情感分析中的跨数据集性能？
RQ3向选定的混淆表征中注入高斯噪声是否能提升在多样化测试数据集上的泛化能力？
RQ4在文本、音频、视频及多模态融合设置下，SAL 与基线方法相比在准确率和鲁棒性方面表现如何？

主要发现

SAL 显著提升了在未见测试数据集上所有三种模态——文本、音频和视频——的预测准确率。
该方法在多模态融合设置中也提升了性能，表现出超越单一模态的泛化能力。
使用 SAL 训练的模型即使在测试数据集的说话人人口统计特征与训练数据不同时，也能保持优异性能。
该提升在多个基准数据集上均一致，表明对领域偏移具有鲁棒性。
第二阶段中添加高斯噪声有效减少了对混淆表征的依赖，同时未损害模态特异性信号。
SAL 使最先进模型在不同在线平台间实现更好的泛化，降低了情感预测中的个体特异性偏差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。