[논문 리뷰] COVID-19 on Social Media: Analyzing Misinformation in Twitter Conversations
본 연구는 2020년 3월 1일부터 6월 5일까지 Twitter 데이터를 수집하여 사실 확인 소스를 활용한 COVID-19 허위정보를 식별·분석하고, 내러티브, 참여도, 확산을 공개적인 허위정보 대시보드를 통해 검토합니다.
The ongoing Coronavirus (COVID-19) pandemic highlights the inter-connectedness of our present-day globalized world. With social distancing policies in place, virtual communication has become an important source of (mis)information. As increasing number of people rely on social media platforms for news, identifying misinformation and uncovering the nature of online discourse around COVID-19 has emerged as a critical task. To this end, we collected streaming data related to COVID-19 using the Twitter API, starting March 1, 2020. We identified unreliable and misleading contents based on fact-checking sources, and examined the narratives promoted in misinformation tweets, along with the distribution of engagements with these tweets. In addition, we provide examples of the spreading patterns of prominent misinformation tweets. The analysis is presented and updated on a publically accessible dashboard (https://usc-melady.github.io/COVID-19-Tweet-Analysis) to track the nature of online discourse and misinformation about COVID-19 on Twitter from March 1 - June 5, 2020. The dashboard provides a daily list of identified misinformation tweets, along with topics, sentiments, and emerging trends in the COVID-19 Twitter discourse. The dashboard is provided to improve visibility into the nature and quality of information shared online, and provide real-time access to insights and information extracted from the dataset.
연구 동기 및 목표
- 사실 확인 소스와 외부 링크를 사용하여 Twitter의 COVID-19 허위정보를 정량화한다.
- 허위정보 트윗에서 촉진되는 내러티브와 주제를 특징짓는다.
- 지리적 범위에 걸친 허위정보의 참여 패턴과 전파 카스케이드를 분석한다.
- COVID-19 담론과 허위정보에 대한 실시간 인사이트를 제공하는 공개적으로 접근 가능한 대시보드를 제공한다.
제안 방법
- 2020년 3월 1일부터 6월 5일까지 COVID-19와 관련된 Twitter 스트리밍 데이터를 수집함(85.04M 트윗; 54.32M 영어).
- 외부 콘텐츠를 사실 확인 소스( Media Bias/Fact Check, NewsGuard, Zimdars)에 연결하여 허위정보 트윗에 라벨을 부여한다.
- 리트윗/답글 그래프에서 정보의 카스케이드를 구축하고, 허위정보 소스에 연결된 경우 원본 트윗을 허위정보로 표시한다.
- 출처 유형별 분포, 참여 분석, 해시태그에 대한 TF-IDF를 통한 내러티브 추출 등 허위정보 분석을 수행한다.
- 어휘 방법(Hutto and Gilbert 2014)을 사용한 감정 분석을 수행하고 국가별 감정을 집계한다.
- 영문 트윗에서 20개의 주제를 식별하기 위해 문자 임베딩을 활용한 주제 모델링을 적용한다.
실험 결과
연구 질문
- RQ1Twitter에서 COVID-19 허위정보를 특징짓는 내러티브와 주제는 무엇인가?
- RQ2허위정보 트윗은 소스별 및 참여 패턴(리트윗/답글)에서 어떻게 분포하는가?
- RQ3카스케이드를 통해 허위정보가 지리적으로 어떻게 확산되는가?
- RQ4COVID-19 개입 및 담론과 관련된 감정 추세는 무엇인가?
- RQ5공개 대시보드가 허위정보, 주제, 추세를 실시간으로 추적할 수 있는가?
주요 결과
- 데이터세트는 전 세계에서 수집된 85.04백만 트윗으로 구성되며, 그중 63.88%가 영어이고 43.02%가 지리적 위치 데이터를 포함합니다; 대표되는 사용자 계정은 10.61백만 개이며 그 중 7.51%가 인증 계정입니다.
- 외부 링크가 포함된 소스 트윗의 3.29%(150.8K)가 사실 확인 사이트에서 식별된 허위정보 소스로 연결됩니다.
- 허위정보 확산은 대규모 전파를 포함하며, 가장 큰 확산은 여러 국가에서 10,000회 이상의 리트윗을 기록합니다.
- TF-IDF 분석을 통해 허위정보 유형별 특징적인 해시태그를 식별하여 범주별 내러티브(신뢰할 수 없음, 음모, 자극적/클릭베이트, 정치적/편향) 를 드러냈다.
- 참여 패턴은 범주에 따라 다르며, 신뢰할 수 없고 음모 소스가 일반적으로 소스 트윗 양에 비해 응답 수가 적다.
- 감정 분석과 주제 분석은 시간이 지남에 따라 진화하는 국가별 인식과 주제 클러스터를 보여주며, 공개 대시보드를 통해 추적된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.