[论文解读] HP-BERT: A Fine-Tuned BERT Model for Detecting Hinduphobia and Sentiment Analysis
HP-BERT 提出了一种微调后的 BERT 模型,用于在新冠疫情期间检测 Hinduphobia 情绪并进行多语言社交媒体情感分析。该模型利用了一个包含 20,000 条英文和阿拉伯文推文以及 21,000 条中文微博的多语言、多标签标注数据集,实现了在六种语言中对细微情感的高精度检测,揭示了与疫情事件相关的全球情感趋势。
HP-BERT is a specialized BERT-based language model fine-tuned to detect Hinduphobic content on Twitter. The model was developed using the "Hinduphobic COVID-19 X (Twitter) Dataset" which includes over 8,000 tweets collected during the COVID-19 pandemic (November 2019 to December 2022). This dataset features 2,000 manually labeled tweets and additional annotations generated using GPT-3.5 Turbo API. HP-BERT employs a multi-stage fine-tuning strategy, incorporating additional training on the SenWave dataset to enhance its sentiment analysis capabilities. The model is further adapted for analyzing Hinglish (Hindi-English) data, making it highly effective for Indian social media content. HP-BERT is designed to identify Hinduphobic discourse, analyze sentiment polarity, and provide nuanced insights into the emotional tone and context of online discussions. Its applications include detecting toxic language, understanding user behavior, and studying the propagation of Hinduphobia during and post-COVID-19. HP-BERT has been rigorously tested on multiple datasets, including the Global COVID-19 Twitter dataset, capturing trends across six countries (Australia, Brazil, India, Indonesia, Japan, and the United Kingdom). The model offers robust performance in detecting Hinduphobia and abusive language while also contributing to the study of social media dynamics and hate speech detection. HP-BERT is available for public use, fostering further research and development in the fields of sentiment analysis, hate speech detection, and computational social science.
研究动机与目标
- 开发一种多语言情感分析系统,能够在全球新冠疫情期间检测社交媒体中的细微情绪。
- 创建一个高质量的多标签标注数据集,包含 20,000 条英文和阿拉伯文推文以及 21,000 条中文微博,用于情感与 Hinduphobia 检测。
- 训练并评估一种基于 BERT 的微调模型(HP-BERT),用于在六种语言(英文、西班牙文、法文、意大利文、阿拉伯文和中文)中同时检测情感与 Hinduphobia。
- 分析关键疫情事件(如封锁措施、经济政策和疫苗进展)引发的情感随时间的变化趋势。
- 为研究全球卫生危机下社交媒体反应的科研人员提供一个公开可用的、多语言且细粒度的情感分析资源。
提出的方法
- 使用包含 20,000 条英文和阿拉伯文推文以及 21,000 条中文微博的多语言、多标签标注数据集对 BERT 进行微调,标签涵盖 10 种情感类别,包括乐观、焦虑、悲伤、恼怒和否认。
- 采用 simpletransformers 框架在标注数据上训练多标签分类模型,实现对每条动态内容同时预测多个情感标签。
- 将 10,000 条已标注的英文推文翻译成西班牙文、法文和意大利文,以扩展训练数据并提升模型在多语言环境下的泛化能力。
- 收集并处理了自 2020 年 3 月 1 日起的超过 1.05 亿条推文和自 2020 年 1 月 20 日起的微博消息,以监测实时情感变化。
- 使用预训练的多语言 BERT 模型,并在标注数据上进行微调,为六种语言分别训练情感分类模型,以确保跨语言性能。
- 通过追踪情感占比和信息量随时间的变化,分析与七个疫情相关主题(如就业、居家办公、群体免疫)的情感趋势。
实验结果
研究问题
- RQ1全球社交媒体上表达的情感如何在多种语言中随关键疫情事件而演变?
- RQ2微调后的 BERT 模型在检测多语言社交媒体内容中的情感与 Hinduphobia 情绪方面表现如何?
- RQ3在新冠疫情期间,不同语言和主题的情感模式有何差异?这些差异揭示了公众的何种认知?
- RQ4翻译后的训练数据在多大程度上能提升西班牙文、法文和意大利文等低资源语言的情感分析模型性能?
- RQ5疫情期间社交媒体话语中最具情绪化的话题是什么?情感趋势与现实事件之间有何关联?
主要发现
- 居家办公(WFH)主题产生了最高比例的乐观情绪,43% 的推文被分类为乐观,显著高于其他主题。
- 药物/药品/疫苗主题讨论量最高,日均消息量达 20,000–40,000 条,在抗疟疾药物炒作等关键事件期间引发了强烈的否认与恼怒情绪。
- 经济刺激与失业主题的情感趋势从 3 月的乐观转向 4 月至 5 月的焦虑与悲伤,尤其在 5 月 8 日至 10 日达到顶峰,当时美国失业率升至 14.7%。
- 所有语言的情感趋势均呈现出相似模式:情绪迅速上升后缓慢下降,对群体免疫策略表现出强烈负面反应。
- 该模型在多语言情感分类任务中表现出色,乐观情绪随时间推移而增加,反映出人们对后疫情时代“重启”更美好世界的集体渴望。
- 标注的 20,000 条英文和阿拉伯文推文以及 21,000 条中文微博数据集,为未来的情感分析与仇恨言论检测研究提供了丰富且多标签的资源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。