QUICK REVIEW

[论文解读] Ensemble Language Models for Multilingual Sentiment Analysis

Md. Arid Hasan|arXiv (Cornell University)|Mar 10, 2024

Sentiment Analysis and Opinion Mining被引用 5

一句话总结

本论文比较四种预训练变换器模型在 SemEval-17 和 ASTD 数据上的英语与阿拉伯语情感分析，并提出两种集成架构，优于基线，在英语结果中多数投票表现最佳。

ABSTRACT

The rapid advancement of social media enables us to analyze user opinions. In recent times, sentiment analysis has shown a prominent research gap in understanding human sentiment based on the content shared on social media. Although sentiment analysis for commonly spoken languages has advanced significantly, low-resource languages like Arabic continue to get little research due to resource limitations. In this study, we explore sentiment analysis on tweet texts from SemEval-17 and the Arabic Sentiment Tweet dataset. Moreover, We investigated four pretrained language models and proposed two ensemble language models. Our findings include monolingual models exhibiting superior performance and ensemble models outperforming the baseline while the majority voting ensemble outperforms the English language.

研究动机与目标

通过利用英语和阿拉伯语的预训练变换模型，推进推文的多语言情感分析。
通过合并英语/阿拉伯语数据集并评估语言无关的集成，缓解语言偏置。
开发与评估集成架构，以提升跨语言的情感分类性能。

提出的方法

在英语和阿拉伯语数据上微调四个预训练语言模型（ArabicBERTv2、RoBERTa base、multilingual BERT、XLM-RoBERTa base）。
提出两种集成模型：（i）将语言特定池化器输出来与融合层和前馈网络融合；（ii）在融合与前馈之间加入多头注意力。
使用语言特定与合并数据进行训练，采用交叉熵损失和 Adam 优化器，设置不同的序列长度与训练轮数。
通过去除符号/链接并使用模型特定的 Byte-Pair Encoding 分词器对推文进行预处理。
使用准确率、加权精确率、加权召回率和宏F1来评估，以应对类别不平衡。

实验结果

研究问题

RQ1单语言模型在英语和阿拉伯语情感分析中是否能超越多语言基线？
RQ2集成模型是否相对于单独的预训练模型带来提升，且多数投票是否尤其有效？
RQ3建立在合并的英语与阿拉伯语数据上的语言无关集合是否能提升跨语言情感分类？

主要发现

语言	训练数据	模型	准确率	精确率	召回率	F1-宏平均
English	English	m-BERT (Baseline)	67.16	67.48	67.16	67.06
English	English	RoBERTa	70.69	71.34	70.69	70.84
English	English	XLM-RoBERTa	69.07	67.00	69.07	69.13
Arabic	Arabic	m-BERT (Baseline)	54.21	53.76	54.21	53.08
Arabic	Arabic	AraBERTv02	69.79	69.96	69.79	69.78
Arabic	Arabic	XLM-RoBERTa	63.89	63.63	63.89	63.74
English	English	Majority Voting Ensemble	70.95	71.55	70.95	71.03
Arabic	Arabic	Majority Voting Ensemble	66.69	66.37	66.69	66.42
English	English	Ensemble model with Feed Forward	68.91	69.26	68.91	68.59
Arabic	Arabic	Ensemble model with Feed Forward	67.67	69.01	67.67	67.82
English	English and Arabic	Ensemble model with multi-head attention Feed Forward	67.44	69.14	67.44	67.31
Arabic	English and Arabic	Ensemble model with multi-head attention Feed Forward	66.30	67.82	66.30	66.42
English	English and Arabic	Ensemble model with Feed Forward	70.03	70.50	70.03	69.88
Arabic	English and Arabic	Ensemble model with Feed Forward	67.61	68.01	67.61	67.12

单语言的 AraBERTv02 在阿拉伯语上取得高性能，超过其他阿拉伯语模型。
多数投票的集成在英语结果中表现强劲（在某些设置中为最佳），并优于英语基线。
提出的带前馈的融合与语言感知的集成在某些设置中略微优于基线。
集成模型在大多数语言上整体优于基线语言模型。
宏F1在存在类别不平衡和多类设置下是一个合适的评估指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。