Skip to main content
QUICK REVIEW

[논문 리뷰] Twitter Dataset on the Russo-Ukrainian War

Alexander Shevtsov, Despoina Antonakaki|arXiv (Cornell University)|2022. 02. 23.
Misinformation and Its Impacts인용 수 21
한 줄 요약

요약: 본 논문은 Russo-Ukrainian 전쟁에 관한 Twitter 데이터셋을 확대하여 57.38M 트윗(7.74M 명의 사용자)과 초기 볼륨 및 감성 분석을 제공하고 GitHub를 통해 공개 이용 가능하게 하여 주제, 혐오 발언, 선전 등에 대한 추가 연구를 가능하게 한다.

ABSTRACT

On 24 February 2022, Russia invaded Ukraine, also known now as the Russo-Ukrainian War. We obtained our dataset through Twitter API from 23 February of 2022 until 23 June of 2023. The collected dataset has 127.275.386 tweets, shared in the form of anonymized text, where the tweet/user IDs and user mentions are anonymized and do not provide any personal information. The provided dataset contains user discussion in more than 70 languages, where the 20 most popular are : 'eng', 'fr', 'de', 'mix', 'it', 'es', 'ja', 'ru', 'pl', 'uk', 'tr', 'th', 'hi', 'qme', 'qht', 'nl', 'fi', 'ar', 'zh' and 'pt'. For the purpose of the information integrity tweets are separated and stored in different files ordered by creation date. The provided dataset is shared for further research purposes. Additionally, we provide the list of tweets IDs at the GitHub repository which can be retracted via Twitter API. Furthermore, we also manage to execute some initial analysis including: volume/activity, hashtags popularity, sentiment and military intelligence and publish the results in the web portal.

연구 동기 및 목표

  • 2022년 2월 24일부터 시작된 Twitter 데이터 수집을 동기 부여하고 Russo-Ukrainian 전쟁에 대한 담론을 연구하기 위해 문서화한다.
  • 초기 볼륨 분석을 통해 시점별 트윗 수, 중단/비활성 계정을 밝히고 추세를 파악한다.
  • 향후 분석(주제 모델링, 혐오 발언, 선전, 봇 탐지 등)을 위한 데이터 자원을 제시하되 개인정보를 고려한 제약을 준수한다.

제안 방법

  • 2022년 2월 24일부터 Twitter API를 통한 지속적 데이터 수집으로 대규모 트윗 코퍼스를 구축한다.
  • 일일 트윗 수와 중단된/비활성 계정의 초기 볼륨 분석을 수행한다.
  • 지배적인 언어와 주제를 식별하기 위한 언어 및 해시태그 빈도 분석(예: #Ukraine)을 수행한다.
  • Ukraine, Russia 및 그들의 대통령들에 대한 일일 긍정/부정 감정을 정량화하기 위해 Vader를 이용한 감성 분석을 수행한다.]
  • research_questions 번역 필요

실험 결과

연구 질문

  • RQ1 Russo-Ukrainian 전쟁 중 트윗 볼륨 및 사용자 중단의 일일 경향은 무엇인가?
  • RQ2담론을 지배하는 언어와 해시태그는 무엇이며 시간이 지남에 따라 어떻게 진화하는가?
  • RQ3Ukraine, Russia 및 그들의 대통령들에 대한 긍정적·부정적 감정의 패턴은 무엇인가?
  • RQ4데이터셋이 주제 분석, 혐오 발언 탐지, 선전 인식과 같은 다운스트림 작업을 어떻게 지원할 수 있는가?

주요 결과

해시태그트윗 수
#Ukraine28,578,739
#Russia9,070,451
#StandWithUkraine6,826,617
#Putin4,851,536
#UkraineRussiaWar4,007,785
#StopRussia2,346,969
#StopPutin2,332,136
#StopWar1,877,518
#Kyiv1,777,401
#NATO1,686,092
  • 데이터셋은 작성 시점에서 57,384,192개의 트윗을 7,744,714명의 사용자로부터 보유하고 있다.
  • 공격의 초기 며칠 동안 일일 활동이 정점에 도달하고 중단된 계정이 증가한다.
  • 상위 언어 중 대다수의 트윗이 영어이다.
  • 가장 인기 있는 해시태그는 #Ukraine이며 28,578,739개의 트윗이 있다; 다른 주요 해시태그로는 #Russia와 #StandWithUkraine가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.