QUICK REVIEW

[论文解读] Automatic Sexism Detection with Multilingual Transformer Models

Mina Schütz, Jaqueline Boeck|arXiv (Cornell University)|Jun 9, 2021

Hate Speech and Cyberbullying Detection被引用 8

一句话总结

本论文提出了一种基于多语言Transformer的自动性别歧视检测方法，利用XLM-RoBERTa模型在外部数据集（HatEval2019和MeTwo）上进行无监督预训练，并在EXIST2021基准数据集上进行微调。最佳模型在二元性别歧视检测任务中取得0.7752的宏F1分数（第5名），在细粒度分类任务中取得0.5589的宏F1分数（第6名），表明在语义相关数据上进行预训练可提升模型的鲁棒性与泛化能力，优于仅通过微调的方法。

ABSTRACT

Sexism has become an increasingly major problem on social networks during the last years. The first shared task on sEXism Identification in Social neTworks (EXIST) at IberLEF 2021 is an international competition in the field of Natural Language Processing (NLP) with the aim to automatically identify sexism in social media content by applying machine learning methods. Thereby sexism detection is formulated as a coarse (binary) classification problem and a fine-grained classification task that distinguishes multiple types of sexist content (e.g., dominance, stereotyping, and objectification). This paper presents the contribution of the AIT_FHSTP team at the EXIST2021 benchmark for both tasks. To solve the tasks we applied two multilingual transformer models, one based on multilingual BERT and one based on XLM-R. Our approach uses two different strategies to adapt the transformers to the detection of sexist content: first, unsupervised pre-training with additional data and second, supervised fine-tuning with additional and augmented data. For both tasks our best model is XLM-R with unsupervised pre-training on the EXIST data and additional datasets and fine-tuning on the provided dataset. The best run for the binary classification (task 1) achieves a macro F1-score of 0.7752 and scores 5th rank in the benchmark; for the multiclass classification (task 2) our best submission scores 6th rank with a macro F1-score of 0.5589.

研究动机与目标

为解决在标注训练数据有限的情况下，检测多语言社交媒体内容中性别歧视的挑战。
在低资源NLP设置中提升模型泛化能力并减少过拟合现象，以应对性别歧视检测任务。
评估利用多语言Transformer模型进行数据增强与迁移学习策略的有效性。
比较mBERT与XLM-R在二元和细粒度性别歧视分类任务中的性能表现。
确定在目标数据集上进行无监督预训练是否优于仅在目标数据集上进行有监督微调。

提出的方法

本研究采用两种多语言Transformer模型：mBERT与XLM-R，分别用于二元与多分类性别歧视检测任务。
实施了全面的预处理流程，包括去除提及、话题标签、URL、数字、标点符号以及非ASCII字符，以提升模型泛化能力。
利用外部数据集——HatEval2019（针对女性与移民的仇恨言论）和MeTwo（西班牙语性别歧视表达）——进行无监督预训练。
在EXIST2021数据集上对模型进行微调，同时对比使用回译法进行数据增强与不使用数据增强的训练结果。
采用晚期融合策略，通过取各类别概率的最大值，整合多个模型（如mBERT与XLM-R）的预测结果，以提升模型鲁棒性。
表现最佳的模型采用XLM-R模型，先在EXIST、HatEval2019与MeTwo数据集上进行无监督预训练，再在EXIST数据集上进行有监督微调。

实验结果

研究问题

RQ1与仅在目标数据集上微调相比，是否在外部语义相关数据集上进行无监督预训练能提升多语言Transformer模型在性别歧视检测任务中的性能？
RQ2通过回译法进行数据增强在提升低资源性别歧视检测任务模型泛化能力方面有多有效？
RQ3当采用迁移学习策略时，XLM-R是否能在二元与细粒度性别歧视分类任务中均优于mBERT？
RQ4整合英语与西班牙语的多语言数据是否能提升跨语言性别歧视检测任务的模型性能？
RQ5预处理流程的选择在多大程度上影响模型在EXIST2021基准上的性能表现？

主要发现

在EXIST、HatEval2019与MeTwo数据集上进行无监督预训练的XLM-R模型在二元分类任务（任务1）中表现最佳，宏F1分数达到0.7752，位列基准测试第5名。
在细粒度分类任务（任务2）中，采用相同XLM-R方法的模型取得0.5589的宏F1分数，整体排名第6名。
在增强后的EXIST数据集上微调的mBERT模型显示出过拟合迹象，其验证准确率为79.97%，而测试准确率仅为71.82%（任务1）。
通过融合多个模型的晚期融合策略略微提升了模型鲁棒性，但未超越表现最佳的单一XLM-R模型，其在任务1中位列第10名，在任务2中位列第8名。
在外部数据集上进行预训练的效果优于仅在目标数据集上微调同一模型，表明在低资源设置下，领域自适应预训练比直接微调更有效。
当在原始（未预处理）数据上微调时，模型在英语内容上的性能显著优于西班牙语内容，表明可能存在语言特定的数据质量或分布问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。