[论文解读] The Ivory Tower Lost: How College Students Respond Differently than the General Public to the COVID-19 Pandemic
论文分析来自美国高校的12,776名Twitter关注者的73,787条与COVID-19相关的推文,比较大学生与公众在主题和情感上的差异,使用人口统计推断、主题建模和基于变换器的情感分析。大学生展现出更负面的情感,更关注与学校相关的问题。
Recently, the pandemic of the novel Coronavirus Disease-2019 (COVID-19) has presented governments with ultimate challenges. In the United States, the country with the highest confirmed COVID-19 infection cases, a nationwide social distancing protocol has been implemented by the President. For the first time in a hundred years since the 1918 flu pandemic, the US population is mandated to stay in their households and avoid public contact. As a result, the majority of public venues and services have ceased their operations. Following the closure of the University of Washington on March 7th, more than a thousand colleges and universities in the United States have cancelled in-person classes and campus activities, impacting millions of students. This paper aims to discover the social implications of this unprecedented disruption in our interactive society regarding both the general public and higher education populations by mining people's opinions on social media. We discover several topics embedded in a large number of COVID-19 tweets that represent the most central issues related to the pandemic, which are of great concerns for both college students and the general public. Moreover, we find significant differences between these two groups of Twitter users with respect to the sentiments they expressed towards the COVID-19 issues. To our best knowledge, this is the first social media-based study which focuses on the college student community's demographics and responses to prevalent social issues during a major crisis.
研究动机与目标
- 测量大学生与公众在 Twitter 讨论 COVID-19 时的差异。
- 确定疫情期间两组各自关注的核心主题与问题。
- 开发模型从 Twitter 数据推断大学生的人群统计信息。
- 将情感分析应用于基于主题的子集,以理解情感反应。
提出的方法
- 收集来自 US News 前200所大学的关注者的 Twitter 数据(抽样 100,000 用户)以及在 2020 年 1 月 20 日至 3 月 20 日之间的 1,873,022 条推文。
- 使用关键词列表识别与 COVID-19 相关的推文,并从 12,776 名用户中提取 73,787 条唯一推文。
- 使用情感感知的分词、拼写纠错、标准化、话题标签分割以及词性/词形注释对文本进行预处理。
- 使用 M3 深度学习系统(姓名、屏幕名、个人简介、头像)从个人资料推断年龄、性别和机构。
- 使用人工评审对金标准子集(2,400 名用户)进行大学生身份标注;在 Bag-of-N-grams(TF-IDF)上训练随机森林,并应用基于 PMI 的属性启发式规则(“my-X” 规则)以提升识别效果。
- 使用 LDA(55 个主题;一致性系数 0.373)对词干化后的标记以及双/三元组进行主题建模;并使用 t-SNE 进行可视化。
- 使用 RoBERTa 与 BERT 基线在 SemEval-2017 Task 4A 数据上评估情感;RoBERTa 在二分类/三分类情感任务上的 Macro-F1 约为 0.806。
实验结果
研究问题
- RQ1大学生与公众在 Twitter 上讨论的与 COVID-19 相关的主导主题是什么?
- RQ2在这些主题中,大学生与公众对 COVID-19 问题的情感有何不同?
- RQ3能多大程度从 Twitter 个人资料和内容推断出大学生的人群统计信息,以及这如何帮助对比分析?
- RQ4这些人口统计和情感差异对危机期间的教育者和政策制定者有何启示?
主要发现
- 大学生与公众在 COVID-19 话题上讨论存在差异,学生更关注学校停课和当地生活条件。
- 整体上负面情感更普遍;大学生对核心 COVID-19 问题表现出显著更多的负面情感。
- 与社交距离和学校停课相关的主题在学生与公众之间的负面情感差距最大(分别约 14.5% 和 13.8% 的负面推文)。
- 学生对远程学习及对学习的干扰反应强烈的负面情感(例如远程学习子主题中负面占比 81.3%)。
- 与中国-origin 争议相关的种族主义讨论突出,对种族主义的负面情绪较高;研究指出在疫情期间针对东亚社区的种族主义目标发生转变。
- 对大学生的人口统计推断表现稳健(随机森林搭配 Bag-of-N-grams 约 78% 准确率;使用 my-X 启发式后提升至约 83%),已识别学生的性别分布约 53.8% 为女性,年龄分布大致在 19–29 岁之间(约 54.1%)。
- 基于 RoBERTa 的情感分类在 SemEval-2017 数据上优于基线,Macro-F1 约为 0.806,支持对 COVID-19 推文语料库进行可靠的主题特定情感分析。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。