[论文解读] A First Instagram Dataset on COVID-19
本文介绍了围绕 COVID-19 标签收集的多语言 Instagram 数据集,详细描述数据收集、特征和潜在研究用途。它提供帖子 IDs 和元数据,以研究 Instagram 上的信息流和错误信息。
The novel coronavirus (COVID-19) pandemic outbreak is drastically shaping and reshaping many aspects of our life, with a huge impact on our social life. In this era of lockdown policies in most of the major cities around the world, we see a huge increase in people and professional engagement in social media. Social media is playing an important role in news propagation as well as keeping people in contact. At the same time, this source is both a blessing and a curse as the coronavirus infodemic has become a major concern, and is already a topic that needs special attention and further research. In this paper, we provide a multilingual coronavirus (COVID-19) Instagram dataset that we have been continuously collected since March 30, 2020. We are making our dataset available to the research community at Github. We believe that this contribution will help the community to better understand the dynamics behind this phenomenon in Instagram, as one of the major social media. This dataset could also help study the propagation of misinformation related to this outbreak.
研究动机与目标
- 提供一个公开可用的 COVID-19 多语言 Instagram 数据集,以用于社交媒体分析。
- 描述内容和发布者属性,以支持信息流动和错误信息研究。
- 使研究人员能够研究 COVID-19 信息疫情期间 Instagram 的动态。
提出的方法
- 通过 Instagram Hashtag Engine API 使用一组与 COVID-19 相关的标签来抓取公开的 Instagram 帖子。
- 将数据以 JSON 记录存储在 MongoDB 中,并收集帖子和互动,每个帖子的评论上限为 500 条、点赞上限为 500 个。
- 为帖子添加字幕/标题、语言、媒体类型、位置、日期、标签/话题标签、被标记/被提及的用户等注释。
- 使用 spaCy 进行语言检测,并对语言分布和热门标签进行可视化分析。
实验结果
研究问题
- RQ1如何构建并与研究社区共享一个用于 COVID-19 的公开 Instagram 数据集?
- RQ2COVID-19 相关的 Instagram 帖子在语言学和主题特征方面有哪些(语言分布、标签等)?
- RQ3哪些发布者类型和参与度模式(点赞、评论)能够描述 Instagram 上的 COVID-19 内容?
- RQ4该数据集如何支持对 Instagram 上错误信息和信息传播的分析?
主要发现
- 该数据集覆盖 18.5K 条评论和 329K 个点赞,来自 2.5K 发布者的 5.3K 条帖子。
- 帖子主要为英语(58.3%),其次是西班牙语(9.9%)、葡萄牙语(7.1%)、意大利语(3.7%)、法语(2.2%)。
- 最热门标签包括 #coronavirus、#covid19/covid_19、#corona、#stayhome 等,形成相关术语的词云。
- 数据收集始于 2020 年 1 月 5 日并持续至 2020 年 3 月 30 日;数据以帖子 IDs 形式发布,符合 Instagram 政策。
- 平均帖子字幕长度为 388 个字符;发布者的平均关注者数量为 2.6K;平均获得点赞为 106;平均获得评论为 7。
- 该数据集旨在支持在 COVID-19 期间错误信息传播、机器人活动、行为变化和信息共享等主题的研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。