[논문 리뷰] A First Instagram Dataset on COVID-19
이 논문은 COVID-19 해시태그를 중심으로 수집된 다국어 인스타그램 데이터셋을 제시하며 데이터 수집, 특징 및 잠재적 연구 활용에 대해 자세히 다룬다. 인스타그램에서의 정보 흐름과 허위정보 연구를 위해 게시물 ID와 메타데이터를 제공한다.
The novel coronavirus (COVID-19) pandemic outbreak is drastically shaping and reshaping many aspects of our life, with a huge impact on our social life. In this era of lockdown policies in most of the major cities around the world, we see a huge increase in people and professional engagement in social media. Social media is playing an important role in news propagation as well as keeping people in contact. At the same time, this source is both a blessing and a curse as the coronavirus infodemic has become a major concern, and is already a topic that needs special attention and further research. In this paper, we provide a multilingual coronavirus (COVID-19) Instagram dataset that we have been continuously collected since March 30, 2020. We are making our dataset available to the research community at Github. We believe that this contribution will help the community to better understand the dynamics behind this phenomenon in Instagram, as one of the major social media. This dataset could also help study the propagation of misinformation related to this outbreak.
연구 동기 및 목표
- COVID-19에 관한 소셜 미디어 분석을 위한 공개적으로 이용 가능한 다국어 인스타그램 데이터셋을 제공한다.
- 정보 흐름과 허위정보 연구를 지원하기 위해 콘텐츠 및 게시자 속성을 특징화한다.
- 연구자들이 COVID-19 인포데믹 기간의 인스타그램 역학을 연구할 수 있도록 한다.
제안 방법
- COVID-19 관련 해시태그 세트를 사용하여 Instagram Hashtag Engine API를 통해 공개 게시물을 크롤링한다.
- MongoDB에 JSON 레코드로 데이터를 저장하고 게시물당 500개의 댓글과 500개의 좋아요로 게시물과 반응을 모두 수집한다.
- 게시물에 자막/캡션, 언어, 미디어 유형, 위치, 날짜, 해시태그, 태그되거나 언급된 사용자 등을 주석으로 첨부한다.
- 언어 식별을 위한 spaCy를 사용하여 언어 분포와 해시태그 활용을 분석하고 상위 해시태그의 시각화를 수행한다.
실험 결과
연구 질문
- RQ1COVID-19를 위한 공개 인스타그램 데이터셋을 어떻게 구성하고 연구 커뮤니티와 공유할 수 있는가?
- RQ2COVID-19 관련 인스타그램 게시물의 언어적 및 주제적 특성(언어 분포, 해시태그)은 무엇인가?
- RQ3인스타그램에서 COVID-19 콘텐츠를 특징짓는 게시자 유형과 참여 패턴(좋아요, 댓글)은 무엇인가?
- RQ4이 데이터셋이 인스타그램에서의 허위정보 및 정보 전파 분석을 어떻게 지원할 수 있는가?
주요 결과
- 데이터셋은 2.5K 게시자가 게시한 5.3K 게시물에서 18.5K 댓글과 329K 좋아요를 포함한다.
- 게시물은 주로 영어(58.3%), 그다음으로 스페인어(9.9%), 포르투갈어(7.1%), 이탈리아어(3.7%), 프랑스어(2.2%).
- 상위 해시태그로는 #coronavirus, #covid19/covid_19, #corona, #stayhome 등이 있으며, 관련 용어의 워드클라우드를 형성한다.
- 데이터 수집은 2020년 1월 5일에 시작되어 2020년 3월 30일까지 계속되었으며, 데이터는 Instagram 정책을 준수하는 게시물 ID로 공개된다.
- 평균 게시물 캡션 길이는 388자이며; 게시자의 평균 팔로워 수는 2.6K, 평균 받은 좋아요는 106, 평균 받은 댓글은 7이다.
- 데이터셋은 COVID-19 기간의 허위정보 확산, 봇 활동, 행동 변화, 정보 공유와 같은 주제를 지원하도록 설계되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.