[论文解读] In the Eyes of the Beholder: Analyzing Social Media Use of Neutral and Controversial Terms for COVID-19
本研究利用主题建模与基于LIWC的情感分析,分析了Twitter上关于COVID-19的讨论,比较了使用具有争议性术语'Chinese Virus'与中性术语'COVID-19'的推文。通过使用最先进的Transformer模型,研究发现这两个术语在语言特征与情感倾向上存在显著差异:'Chinese Virus'与负面情绪、政治批评以及以中国和政府为中心的话题相关联,而'COVID-19'则与事实性、面向未来的、更具分析性与积极倾向的论述相关联。
During the COVID-19 pandemic, "Chinese Virus" emerged as a controversial term for coronavirus. To some, it may seem like a neutral term referring to the physical origin of the virus. To many others, however, the term is in fact attaching ethnicity to the virus. While both arguments appear reasonable, quantitative analysis of the term's real-world usage is lacking to shed light on the issues behind the controversy. In this paper, we attempt to fill this gap. To model the substantive difference of tweets with controversial terms and those with non-controversial terms, we apply topic modeling and LIWC-based sentiment analysis. To test whether "Chinese Virus" and "COVID-19" are interchangeable, we formulate it as a classification task, mask out these terms, and classify them using the state-of-the-art transformer models. Our experiments consistently show that the term "Chinese Virus" is associated with different substantive topics and sentiment compared with "COVID-19" and that the two terms are easily distinguishable by looking at their context.
研究动机与目标
- 探究在社交媒体讨论中使用具有争议性的术语如'Chinese Virus'是否传递了超越病毒地理来源描述的情感或意识形态内容。
- 比较使用具有争议性术语与中性术语的推文在语言与情感特征上的差异。
- 通过评估最先进的NLP模型对'Chinese Virus'与'COVID-19'的可区分性,检验二者在语境中是否可互换。
- 揭示在疫情期间公共话语中使用污名化术语所关联的潜在思维模式。
提出的方法
- 应用潜在狄利克雷分布(LDA)提取并比较包含'Chinese Virus'(CD)与'COVID-19'(ND)的推文中的话题。
- 使用LIWC2015分析CD与ND推文中包括情感、认知过程与情绪基调在内的多维语言特征。
- 将术语的可互换性问题转化为文本分类任务,通过遮蔽目标术语并使用Transformer模型(如BERT、XLNet)预测其存在。
- 在不同规模的数据集(100K、500K、2M)上训练并评估分类模型,以评估性能与鲁棒性。
- 通过话题分布与情感特征的定性分析,识别话语焦点与语气的差异。
- 使用F1分数评估模型性能,以确定仅基于上下文特征时,两种术语的可区分程度。
实验结果
研究问题
- RQ1使用具有争议性的术语如'Chinese Virus'是否与情感或意识形态内容相关,而不仅仅是描述病毒的地理起源?
- RQ2使用具有争议性术语与非争议性术语的推文在语言与主题特征上有哪些差异?
- RQ3能否仅基于上下文特征,利用现代NLP模型可靠地区分'Chinese Virus'与'COVID-19'?
主要发现
- 使用'Chinese Virus'的推文显著更可能涉及中国与中华人民共和国政府,其话题包含'谎言'、'种族主义'、'政府'、'负责'与'宣传'等批判性关键词。
- 使用'COVID-19'的推文主要聚焦于事实性、与健康相关的话题,如病例数、死亡人数与医护人员,情感化或观点性语言极少。
- 分类模型取得了较高的F1分数——XLNet-Base, Cased模型最高达0.9521,表明'Chinese Virus'与'COVID-19'在上下文基础上具有高度可区分性。
- CD推文表现出更高的愤怒情绪与更负面的情感倾向,而ND推文则表现出更多焦虑、悲伤与分析性思维,且更关注面向未来的行为。
- CD推文表现出更高的不确定性与确定性水平,典型特征为观点驱动或表达性写作,而ND推文在语气与结构上更接近正式新闻报道。
- 使用ND术语的用户更关注工作、金钱与成就,表明其沟通风格更具目标导向性与真实性,相较之下,CD群体则表现出不同的表达特征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。