Skip to main content
QUICK REVIEW

[논문 리뷰] Tweets in Time of Conflict: A Public Dataset Tracking the Twitter Discourse on the War Between Ukraine and Russia

Emily Chen, Emilio Ferrara|arXiv (Cornell University)|2022. 03. 14.
European and Russian Geopolitical Military Strategies인용 수 22
한 줄 요약

이 논문은 Ukraine–Russia 전쟁에 대한 트위터 담론의 공개 데이터셋을 제시하며, Feb 2022–Oct 2022에 수집된 수억 개의 트윗의 tweet IDs를 공개하고, 초기 분석 및 데이터 접근을 위한 GitHub 저장소 링크를 제공합니다.

ABSTRACT

On February 24, 2022, Russia invaded Ukraine. In the days that followed, reports kept flooding in from layman to news anchors of a conflict quickly escalating into war. Russia faced immediate backlash and condemnation from the world at large. While the war continues to contribute to an ongoing humanitarian and refugee crisis in Ukraine, a second battlefield has emerged in the online space, both in the use of social media to garner support for both sides of the conflict and also in the context of information warfare. In this paper, we present a collection of over 63 million tweets, from February 22, 2022 through March 8, 2022 that we are publishing for the wider research community to use. This dataset can be found at https://github.com/echen102/ukraine-russia and will be maintained and regularly updated as the war continues to unfold. Our preliminary analysis already shows evidence of public engagement with Russian state sponsored media and other domains that are known to push unreliable information; the former saw a spike in activity on the day of the Russian invasion. Our hope is that this public dataset can help the research community to further understand the ever evolving role that social media plays in information dissemination, influence campaigns, grassroots mobilization, and much more, during a time of conflict.

연구 동기 및 목표

  • Feb 2022를 통해 2023년 초까지의 Ukrainian–Russia 갈등을 추적하는 대형 공개 Twitter 데이터 세트를 문서화한다.
  • tweet의 전체 텍스트가 아닌 tweet IDs를 통해 데이터 접근 지침을 제공하고 Twitter 이용 약관 준수를 보장한다.
  • 언어 분포, 해시태그, 도메인, 사용자 지리 위치 패턴에 대한 예비 통계와 발견을 제공하여 허위정보 및 정보전 연구를 가능하게 한다.
  • 갈등 기간의 Twitter 활동에서 시간적 다이내믹스와 실제 사건과의 상관관계를 강조한다.

제안 방법

  • Conflict 관련 키워드와 트렌딩 토픽을 추적하기 위해 Twitter 스트리밍 API v1.1을 이용한 실시간 데이터 수집.
  • Academic Track 접근에 대한 월간 상한이 있는 Twitter 검색 API를 통한 보충형 과거 트윗 수집.
  • Twitter 이용 약관 준수를 위해 전체 텍스트가 아닌 tweet IDs를 공개하고 Hydrator 또는 Twarc를 통한 데이터 수 hydration 방법 가이드 제공.
  • 다중 언어 용어를 포함한 키워드 추적(Table 1) 및 진화하는 이벤트를 반영하기 위한 주기적 업데이트.
  • 언어 분포(Table 2), 해시태그 사용량(Table 3), 공유 도메인(Figure 3 및 관련 논의) 등의 기본 통계 분석.

실험 결과

연구 질문

  • RQ1 collection 기간 동안 Ukraine–Russia 갈등의 트윗 언어 분포는 어떠한가?
  • RQ2어떤 위치와 사용자 기원이 트위터 담론을 지배하며, 리트윗/인용 패턴은 지리와 어떻게 관련되는가?
  • RQ3데이터세트에서 가장 많이 공유되는 도메인은 무엇이며, 그것이 정보전 및 허위정보 지표와 어떻게 관련되는가?
  • RQ4해시태그는 주요 사건과 여론을 어떻게 반영하며 어떤 시간적 다이내믹스가 나타나는가?
  • RQ5데이터셋은 실제 세계의 이정표 및 뉴스 이벤트와 어떤 관계를 보이는가?

주요 결과

  • Release v1.2는 Feb 22, 2022–Oct 1, 2022를 커버하며 언어별로 454,488,445개의 트윗을 포함한다.
  • 전체 볼륨은 하루에 대략 4+백만 개의 트윗에서 시작해 시간이 지남에 따라 Twitter의 속도 제한 및 API 변경 영향으로 감소했다.
  • 영어가 언어 분포를 지배하며 (v1.2의 70.65%에 해당하는 321,088,619트윗), 우크라이나어(8,016,384) 및 러시아어(9,968,421)가 비영어 키워드 추가 후 증가했다.
  • 상위 언어와 급등은 주요 이벤트와 상관관계가 있으며(예: 우크라이나 독립 기념일에 우크라이나어 트윗 증가).
  • 대부분의 트윗은 미국과 영국에서 발생하며, 언어 주도형 일주기 패턴이 미국 및 지역 시간대에 대응한다.
  • 상위 해시태그에는 #ukraine, #russia, #putin, #standwithukraine, #ukrainewar, #mariupol이 포함되며, Putin 관련 사용은 시황 뉴스와 일치하며 변동성이 있다.
  • 공유 도메인으로는 RT.com(러시아 국영 매체), Rumble, ZeroHedge가 자주 등장하며 MBFC에서 의심스러운/음모론 경향으로 분류되며 전쟁 초기 급증을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.