QUICK REVIEW

[论文解读] NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis

Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani|arXiv (Cornell University)|Jan 20, 2022

Sentiment Analysis and Opinion Mining被引用 57

一句话总结

NaijaSenti 引入首个大规模人工标注的 Twitter 情感数据集，覆盖 Hausa、Igbo、Nigerian-Pidgin、和 Yorùbá (~30k tweets per language)，以及基线模型和语言自适应技术。该研究表明针对语言的模型和 LAFT 在这些低资源尼日利亚语言的情感分类中有效。

ABSTRACT

Sentiment analysis is one of the most widely studied applications in NLP, but most work focuses on languages with large amounts of data. We introduce the first large-scale human-annotated Twitter sentiment dataset for the four most widely spoken languages in Nigeria (Hausa, Igbo, Nigerian-Pidgin, and Yorùbá ) consisting of around 30,000 annotated tweets per language (and 14,000 for Nigerian-Pidgin), including a significant fraction of code-mixed tweets. We propose text collection, filtering, processing and labeling methods that enable us to create datasets for these low-resource languages. We evaluate a rangeof pre-trained models and transfer strategies on the dataset. We find that language-specific models and language-adaptivefine-tuning generally perform best. We release the datasets, trained models, sentiment lexicons, and code to incentivizeresearch on sentiment analysis in under-represented languages.

研究动机与目标

为四大尼日利亚语言（Hausa、Igbo、Nigerian-Pidgin、Yorùbá）创建大规模、人工标注的情感数据集。
通过在低资源尼日利亚语言中实现混合语言与单语言情感分析来弥补语言资源缺口。
提供情感词表，并公开发布数据集、模型及代码，以促进弱表示语言的研究。
开展基准实验，评估在 NaijaSenti 上的迁移和多语言建模策略。

提出的方法

通过启发式爬取收集数据，使用停用词、表情符号、主题标签，以及在 Twitter API 不支持语言时进行语言/位置筛选。
由本地说话者进行人工标注，采用五个类别（POS、NEG、NEU、MIX、IND），并通过裁决得到金标签。
创建语言特定的情感词表，并在人工验证下对 NRC 与 AFFIN 词表进行半自动翻译。
在语言内微调、LAFT 与多任务设置下评估多种多语言 PLMs（AfriBERTa、mBERT、XLM-R、RemBERT、mDeBERTaV3）。
探索从 English SemEval 2017 到四种尼日利亚语言的跨语言零样本迁移。
语言自适应微调（LAFT），结合词汇增强与领域自适应（Twitter 与通用领域），以提升性能。

实验结果

研究问题

RQ1四种尼日利亚语言（Hausa、Igbo、Nigerian-Pidgin、Yorùbá）的大规模情感数据集具有怎样的质量与特征？
RQ2最先进的多语言 PLMs 在这些语言的情感分类上表现如何，语言自适应微调是否有帮助？
RQ3是否有一个单一的多语言模型可以有效处理这四种尼日利亚语言的情感分类？
RQ4从英语到这些尼日利亚语言的跨语言/零样本迁移是否有可衡量的收益？
RQ5代码混合与变音符号对标注和模型性能有什么影响？

主要发现

NaijaSenti 大约包含每种语言约 30k 条标注推文（Hausa、Igbo、Nigerian-Pidgin、Yorùbá）。
代码混合普遍存在，Igbo 约有 43% 为代码混合内容；Yorùbá 和 Igbo 的变音符号会影响音调语言的标注。
AFriBERTa-large 与 XLM-R-base+LAFT 在各语言上实现较高的平均 F1（约 78%），LAFT 通常带来增益，尤其在通用领域预训练中。
从 English SemEval 2017 到这四种尼日利亚语言的零-shot 迁移在 AfriBERTa 和 RemBERT 上获得显著提升；AfriBERTa 通常提供最佳的零-shot 性能。
对 200 条推文的人工评估显示在所有语言上 micro-F1 约为 0.75–0.85，MCC 约为 0.63–0.77，验证数据集的可靠性。
单一的多语言模型（AfriBERTa 或 mDeBERTaV3）可以接近单语言性能，使得对四种语言的实际部署成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。