[论文解读] Fake Cures: User-centric Modeling of Health Misinformation in Social Media
本研究开发了一种以用户为中心的模型,通过分析语言风格、情感倾向和用户属性,识别出在Twitter上容易传播癌症治疗虚假信息的用户。通过对4,212名真实用户的多阶段筛选流程,作者训练了一个逻辑回归分类器,其在预测虚假信息传播方面的准确率超过90%,为公共卫生干预提供了有效工具。
Social media's unfettered access has made it an important venue for health discussion and a resource for patients and their loved ones. However, the quality of the information available, as well as the motivations of its posters, has been questioned. This work examines the individuals on social media that are posting questionable health-related information, and in particular promoting cancer treatments which have been shown to be ineffective (making it a kind of misinformation, willful or not). Using a multi-stage user selection process, we study 4,212 Twitter users who have posted about one of 139 such "treatments", and compare them to a baseline of users generally interested in cancer. Considering features capturing user attributes, writing style, and sentiment, we build a classifier which is able to identify users prone to propagate such misinformation at an accuracy of over 90%, providing a potential tool for public health officials to identify such individuals for preventive intervention.
研究动机与目标
- 识别那些在医学证据明确反对的情况下仍传播未经证实的癌症‘疗法’的Twitter用户。
- 理解传播健康虚假信息(尤其在癌症治疗背景下)的用户在行为和语言特征上的表现。
- 开发一个预测模型,以区分可能传播虚假信息的用户与一般关注癌症的用户。
- 为公共卫生官员提供一种工具,以主动监测并干预社交媒体上传播的健康虚假信息。
- 创建一个经过筛选、可供公开分享的用户数据集,包含传播癌症虚假信息的用户,以供未来健康传播与虚假信息研究使用。
提出的方法
- 采用多阶段用户筛选流程,结合机器学习、众包和启发式规则,识别出发布关于139种无效癌症治疗内容的真实人类用户。
- 使用姓名词典、机构分类和使用阈值,过滤掉机器人账户和机构账号。
- 收集并分析用户属性、写作风格(如词汇复杂度)、情感倾向以及发帖时间。
- 将识别出的传播虚假信息的用户与来自先前研究的一般癌症关注群体进行对比。
- 利用用户属性、语言风格、情感倾向和发帖时间等特征,训练一个逻辑回归分类器,以预测用户传播虚假信息的可能性。
- 通过保留的测试集验证模型性能,成功以超过90%的准确率识别出可能传播虚假信息的用户。
实验结果
研究问题
- RQ1在传播未经证实的癌症疗法的Twitter用户中,其行为和语言特征有何显著区别?
- RQ2传播癌症虚假信息的用户与一般关注癌症的用户在语言使用和参与模式上存在哪些差异?
- RQ3用户层面的特征(如写作风格、情感倾向和活动时间)能否有效预测其传播健康虚假信息的可能性?
- RQ4传播无效癌症疗法的用户更可能是患者,还是对健康话题有专门兴趣的非患者?
- RQ5基于Twitter数据训练的以用户为中心的模型,在多大程度上能准确识别出易传播健康虚假信息的个体?
主要发现
- 传播无效癌症疗法的用户通常使用比一般关注癌症的用户更复杂的语言。
- 这些用户通常并未直接受癌症影响,表明其传播行为并非基于个人经历。
- 逻辑回归分类器在识别易传播癌症虚假信息的用户方面,准确率超过90%。
- 该模型识别出的是参与健康话题讨论但与疾病无个人关联的用户,揭示了一类非患者型意见领袖。
- 研究发现,关于癌症疗法的虚假信息通常由对健康话题有浓厚兴趣的非患者传播,而非因寻求希望而传播的患者。
- 经过筛选的4,212名用户的数据库为未来健康虚假信息与社交媒体研究提供了宝贵且高质量的研究资源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。