[论文解读] NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection using Cross-lingual Representation Learner
本论文提出了一种使用跨语言变压器模型的多语言混合代码希望话语检测系统,其中 XLM-RoBERTa 在英语、泰米尔语和马拉雅拉姆语上均取得了最先进性能,分别获得加权 F1 分数 0.931、0.602 和 0.854。该方法在来自社交媒体的多语言、混合代码数据集上微调预训练的变压器模型,优于传统机器学习与深度学习方法。
In recent years, several systems have been developed to regulate the spread of negativity and eliminate aggressive, offensive or abusive contents from the online platforms. Nevertheless, a limited number of researches carried out to identify positive, encouraging and supportive contents. In this work, our goal is to identify whether a social media post/comment contains hope speech or not. We propose three distinct models to identify hope speech in English, Tamil and Malayalam language to serve this purpose. To attain this goal, we employed various machine learning (support vector machine, logistic regression, ensemble), deep learning (convolutional neural network + long short term memory) and transformer (m-BERT, Indic-BERT, XLNet, XLM-Roberta) based methods. Results indicate that XLM-Roberta outdoes all other techniques by gaining a weighted $f_1$-score of $0.93$, $0.60$ and $0.85$ respectively for English, Tamil and Malayalam language. Our team has achieved $1^{st}$, $2^{nd}$ and $1^{st}$ rank in these three tasks respectively.
研究动机与目标
- 开发一种计算模型,用于检测多语言、混合代码社交媒体帖子中的希望话语——即积极、支持性与鼓励性内容。
- 解决标注数据集稀缺以及多语言与混合代码文本在希望话语检测中带来的挑战。
- 评估并比较多种模型的性能,包括传统机器学习、深度学习和基于变压器的架构。
- 在英语、泰米尔语和马拉雅拉姆语中实现对希望话语、非希望话语以及非目标语言(NIL)的高精度分类。
提出的方法
- 在涵盖英语、泰米尔语和马拉雅拉姆语的多语言、混合代码希望话语数据集上,对 XLM-RoBERTa、m-BERT、Indic-BERT、XLNet 和基于 BERT 的模型进行微调。
- 通过跨语言表示学习器应用迁移学习,以捕捉跨语言的语义与句法模式。
- 使用 TF-IDF 和 FastText 嵌入作为传统机器学习与深度学习模型的基线特征。
- 结合 Keras 中的 CNN 与 BiLSTM 架构,配合 FastText 嵌入,以建模文本中的序列与局部模式。
- 采用早停法与 Ktrain 的 'fit onecycle' 方法,在 30 个周期内以初始 2e−5 学习率高效微调变压器模型。
- 通过验证集进行广泛的超参数调优,并在未见的测试集上评估最终性能。
实验结果
研究问题
- RQ1在多种语言中检测混合代码希望话语时,传统机器学习与深度学习模型与最先进变压器模型相比表现如何?
- RQ2多语言预训练与跨语言迁移对希望话语检测性能有何影响?
- RQ3为何 XLM-RoBERTa 在此多语言、混合代码设置中优于其他变压器模型?
- RQ4类别不平衡与混合代码如何影响模型泛化能力与误分类模式?
- RQ5多语言模型能否有效检测低资源语言(如泰米尔语与马拉雅拉姆语)中的希望话语?
主要发现
- XLM-RoBERTa 在英语测试集上取得了最高的加权 F1 分数 0.931,优于所有其他模型。
- 在泰米尔语中,XLM-RoBERTa 取得了 0.602 的加权 F1 分数,超过 m-BERT(0.588)、Indic-BERT(0.578)和 XLNet(0.558)。
- 在马拉雅拉姆语中,XLM-RoBERTa 取得了 0.854 的加权 F1 分数,超过 Indic-BERT(0.840)和 m-BERT(0.804)。
- 集成模型在传统机器学习模型中表现最佳,在英语上加权 F1 分数为 0.905,在泰米尔语上为 0.573。
- 混淆矩阵显示,模型最常将希望话语(HS)与非希望话语(NHS)混淆,尤其由于混合代码与类别不平衡所致。
- 尽管性能优异,模型在“非目标语言”(NIL)类别上仍表现不佳,因训练样本有限,常将低资源、短文本误分类为 NHS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。