[논문 리뷰] A first look at COVID-19 information and misinformation sharing on Twitter
본 연구는 2020년 1월 16일부터 3월 15일까지의 COVID-19 관련 Twitter 대화에서 볼륨, 주제, 지리적 신호, 신화, 정보의 질을 분석하고, 사례 증가의 잠재적 선행 지표와 잘못된 정보의 확산을 강조한다.
Since December 2019, COVID-19 has been spreading rapidly across the world. Not surprisingly, conversation about COVID-19 is also increasing. This article is a first look at the amount of conversation taking place on social media, specifically Twitter, with respect to COVID-19, the themes of discussion, where the discussion is emerging from, myths shared about the virus, and how much of it is connected to other high and low quality information on the Internet through shared URL links. Our preliminary findings suggest that a meaningful spatio-temporal relationship exists between information flow and new cases of COVID-19, and while discussions about myths and links to poor quality information exist, their presence is less dominant than other crisis specific themes. This research is a first step toward understanding social media conversation about COVID-19.
연구 동기 및 목표
- 초기 outbreak 기간 동안 Twitter에서 COVID-19 대화의 규모와 증가를 측정한다.
- 지리적 신호와 언어를 포함한 지배적 주제와 토론 기원의 식별.
- 신화의 존재 여부와 성격, 그리고 시간이 지남에 따른 유병률을 평가한다.
- Twitter 사용자가 고품질 대 저품질 정보 및 뉴스 소스를 공유하는 방식을 검토한다.
- 위치 기반 Twitter 신호가 보고된 COVID-19 확진자 수와 연관되는지, 그리고 대화가 선행 지표로 작용할 수 있는지 탐색한다.
제안 방법
- COVID-19–관련 트윗을 2020-01-16부터 2020-03-15까지 Twitter Streaming API를 사용하여 COVID-19 해시태그 세트를 이용해 수집한다.
- 트윗을 언어별로 분류하고, 시계열을 행동적으로 분석하여 증가 패턴과 문화 간 차이를 평가한다.
- 트윗의 위치 언급을 라벨링하기 위해 Wikipedia와 Statoids에서 위치 온톨로지를 구성하고, 가능하면 지오태깅된 트윗을 분석한다.
- 자주 등장하는 비 불용어를 자유 코딩으로 식별하여 여덟 가지 고수준 콘텐츠 주제를 식별하고, 다수결로 트윗을 주제에 할당한다.
- 수동 키워드/구문 매칭으로 COVID-19에 대한 신화를 추출하고 매일의 수에 확률적 귀속을 통해 분류한다.
- URL 공유를 평가하여 도메인을 고품질 보건 소스(HQHS)와 저품질/잘못된 정보 소스(LQMS)에 매핑하고, 트윗 및 리트윗에서의 존재를 분석한다.
- MediaBias/FactCheck의 신뢰할 수 있는 뉴스 도메인 목록을 사용하여 뉴스 도메인 공유를 평가하고 뉴스 기사에서 HQHS 대 LQMS 링크의 비율을 분석한다.
실험 결과
연구 질문
- RQ1초기 확산 기간 동안 Twitter에서 COVID-19 논의의 볼륨과 궤적은 어떤가?
- RQ2어떤 언어가 지배적이며 주제/주제가 시간이 지남에 따라 어떻게 진화하는가?
- RQ3트위터의 위치 언급이 공식 확진자 수와 상관관계가 있거나 선행하는가, 그리고 트위터가 선행 지표가 될 수 있는가?
- RQ4COVID-19에 관한 어떤 신화가 나타나며, 연구 기간 동안 그 유병률은 어떻게 변하는가?
- RQ5사용자들이 고품질과 저품질 소스의 정보를 어떻게 공유하고, 뉴스 매체가 정보 확산에서 어떤 역할을 하는가?
주요 결과
- Total COVID-19–related tweets: 2,792,513 original tweets, 456,878 quotes, and 18,168,161 retweets.
- 영어가 트윗의 57.1%, 스페인어 11.6%, 프랑스어 6.5%, 이탈리아어 4.8%를 차지한다; 중국 관련 용어는 초기 단계에서 높은 비중을 보인다.
- 대화의 위치 언급 및 지오태깅 트윗은 공식 확진자 수와 상관관계가 있다(중국 제외 시 상관계수 약 0.75).
- 위치 대화와 보고된 사례 간의 선행 기간은 국가별로 다르다(USA 약 2일, Italy 약 4–5일, China-B 약 4–5일), 이는 소셜 미디어 신호의 예측 가능성을 시사한다.
- 여덟 가지 주제가 확인되었고; 건강/바이러스와 글로벌 성격이 각각 라벨링된 콘텐츠의 약 30%를 차지하며, 정보 제공자는 약 11%, 감정은 약 9%이다; 주제의 유행은 미국 확산이 커지면서 증가한다.
- 약 16,000개의 트윗(약 0.6%)이 다섯 가지 대상 신화를 다루며, 바이러스의 기원은 초기 단계에서 지배적이었고, 독감 비교 및 가정 요법은 나중에 증가했다.
- 원본 트윗의 40.5%에서 URL이 나타나고(인용 트윗의 5.1%, 리트윗의 9.6%), HQHS 및 LQMS 링크는 드물지만 LQMS 링크가 리트윗되는 경향이 더 많다.
- 뉴스 공유는 원본 트윗의 13%에 뉴스 URL이 포함되어 보이며; HQHS 링크는 기사 중 약 6.3%, LQMS는 약 0.3%에서 나타나고, 대부분의 롱테일 도메인은 HQHS 소스를 선호한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.