[论文解读] Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon
论文表明,用多语言情感词典进行预训练的多语言模型(经扩展和筛选)在34种语言上的零-shot 情感分析表现强劲,常常超过用英语训练的模型和大语言模型,且不使用句子级情感数据。
Improving multilingual language models capabilities in low-resource languages is generally difficult due to the scarcity of large-scale data in those languages. In this paper, we relax the reliance on texts in low-resource languages by using multilingual lexicons in pretraining to enhance multilingual capabilities. Specifically, we focus on zero-shot sentiment analysis tasks across 34 languages, including 6 high/medium-resource languages, 25 low-resource languages, and 3 code-switching datasets. We demonstrate that pretraining using multilingual lexicons, without using any sentence-level sentiment data, achieves superior zero-shot performance compared to models fine-tuned on English sentiment datasets, and large language models like GPT--3.5, BLOOMZ, and XGLM. These findings are observable for unseen low-resource languages to code-mixed scenarios involving high-resource languages.
研究动机与目标
- 通过利用情感词典而非句子级数据,在34种语言中用有限标注数据推动情感分析。
- 评估基于词典的预训练对二分类和三分类零-shot 多语言情感表现的影响。
- 探究回归式与分类式预训练,以及词典扩展(Panlex)与筛选对泛化的影响。
- 评估在高/中资源语言、NusaX 印尼语语言、非洲语言以及代码混合文本上的表现。
提出的方法
- 在情感词典上对六种多语言模型进行预训练(mBERT Base、XLM-R Base/Large、mBART Large、mT5 Base/Large)。
- 以 NRC-VAD 作为多语言情感词典,并通过 Panlex 翻译扩展至109种语言。
- 通过迭代回归方法将翻译分数与英文分数对齐来筛选扩展词条。
- 在34种语言的句子级数据上进行微调或评估零-shot 情感,二分类和三分类设置,比较回归式与分类式预训练。
- 将词典预训练模型与 SST-finetuned English 模型及大语言模型(GPT-3.5、XGLM、BLOOMZ)进行比较。
- 报告跨语言组(HM-R、NusaX、非洲、代码混用)的零-shot 情感宏F1/加权F1。

实验结果
研究问题
- RQ1多语言情感词典预训练是否能在无句子级数据的情况下提升低资源语言的零-shot 情感分析?
- RQ2多语言情感词典是否改善多语言泛化,特别是对未见的低资源语言和代码混合文本?
- RQ3在零-shot 情境下,回归式还是分类式预训练在二分类与三分类情感分类中更有效?
- RQ4词典扩展(Panlex)和筛选对不同语言组的零-shot 表现有何影响?
主要发现
- 基于词典的预训练在许多低资源情景中显著提升零-shot表现,胜过原生模型和大语言模型。
- 在高/中资源语言中,仍有些 SST 微调模型表现最佳,但若干基于词典的预训练模型在二分类上超越了 GPT-3.5、XGLM 等大语言模型(如 XLM-R Large 进行词典扩展)。
- 对于低资源语言(NusaX 与非洲语言),基于词典的多语言 NRC-VAD 预训练通常优于 SST 微调的英文基线和大语言模型,mT5 Large 在各组均有出色表现。
- Panlex 扩展通常有助于三分类,通过扩展词典覆盖率,尽管对未见的低资源语言的效果较为微妙,在源语言以英语为中心时有时受限。
- 代码混合文本受益于词典扩展和筛选,在二分类方面超越了 LLMs 和 SST 基线,在某些三分类情形接近或超越 LLM 表现。
- 回归式预训练在二分类上通常表现更好,而分类式预训练在三分类上表现出色;中性界限处理对某些模型(如 mT5)更具挑战。
- 此方法对模型未见语言表现出合理的零-shot迁移,表明通过基于词典的预训练实现了改进的多语言泛化。)

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。