[論文レビュー] A First Instagram Dataset on COVID-19
この論文はCOVID-19ハッシュタグを中心に収集した多言語のInstagramデータセットを提示し、データ収集、特徴、潜在的な研究用途を詳述する。Instagram上の情報流と誤情報の研究のために投稿IDとメタデータを提供する。
The novel coronavirus (COVID-19) pandemic outbreak is drastically shaping and reshaping many aspects of our life, with a huge impact on our social life. In this era of lockdown policies in most of the major cities around the world, we see a huge increase in people and professional engagement in social media. Social media is playing an important role in news propagation as well as keeping people in contact. At the same time, this source is both a blessing and a curse as the coronavirus infodemic has become a major concern, and is already a topic that needs special attention and further research. In this paper, we provide a multilingual coronavirus (COVID-19) Instagram dataset that we have been continuously collected since March 30, 2020. We are making our dataset available to the research community at Github. We believe that this contribution will help the community to better understand the dynamics behind this phenomenon in Instagram, as one of the major social media. This dataset could also help study the propagation of misinformation related to this outbreak.
研究の動機と目的
- ソーシャルメディア分析のために、COVID-19に関する公開可能な多言語のInstagramデータセットを提供する。
- 情報の流れと誤情報の研究を支援するために、コンテンツと発行者属性を特徴づける。
- 研究者がCOVID-19のインフォデミック期間中のInstagramダイナミクスを研究できるようにする。
提案手法
- Instagram Hashtag Engine APIを用いてCOVID-19関連ハッシュタグのセットを含む公開Instagram投稿をクロールする。
- MongoDBにJSONレコードとしてデータを保存し、投稿と反応の両方を収集する。各投稿ごとに500件のコメントと500件のいいねの上限を設ける。
- キャプション、言語、メディアタイプ、場所、日付、ハッシュタグ、タグ付け/言及されたユーザーなどで投稿を注釈付けする。
- lang detectionにはspaCyを用いて言語分布とトップハッシュタグの可視化を行い、ハッシュタグの利用を分析する。
実験結果
リサーチクエスチョン
- RQ1公的なCOVID-19に関するInstagramデータセットをどのように構築・共有して研究コミュニティに提供できるか?
- RQ2COVID-19関連のInstagram投稿の言語的・主題的特徴(言語分布、ハッシュタグ)はどうか?
- RQ3COVID-19コンテンツを特徴づける発行者タイプとエンゲージメントパターン(いいね、コメント)は何か?
- RQ4このデータセットはInstagram上の誤情報と情報伝播の分析をどのように支援できるか?
主な発見
- データセットは5.3K投稿からの18.5Kコメントと329Kいいねを、2.5Kの発行者が公開している。
- 投稿は主に英語(58.3%)、スペイン語(9.9%)、ポルトガル語(7.1%)、イタリア語(3.7%)、フランス語(2.2%)。
- トップハッシュタグには #coronavirus、#covid19/covid_19、#corona、#stayhome などが含まれ、関連語のワードクラウドを形成している。
- データ収集は2020年1月5日に開始され、2020年3月30日まで継続した。データはInstagramの方針を尊重した投稿IDとしてリリースされている。
- 平均的な投稿のキャプション長は388文字、発行者の平均フォロワー数は2.6K、受信いいねの平均は106、受信コメントの平均は7。
- データセットは誤情報の拡散、ボット活動、行動変化、COVID-19時の情報共有などのトピックを支援することを目的としている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。