[논문 리뷰] Twitter Dataset for 2022 Russo-Ukrainian Crisis
이 논문은 2022년 러시아-우크라이나 위기 실시간 Twitter 데이터셋을 공개하여 담론 분석, 오정보, 정보 캠페인 분석을 가능하게 하는 트윗 ID와 사용 통계를 제공합니다.
Online Social Networks (OSNs) play a significant role in information sharing during a crisis. The data collected during such a crisis can reflect the large scale public opinions and sentiment. In addition, OSN data can also be used to study different campaigns that are employed by various entities to engineer public opinions. Such information sharing campaigns can range from spreading factual information to propaganda and misinformation. We provide a Twitter dataset of the 2022 Russo-Ukrainian conflict. In the first release, we share over 1.6 million tweets shared during the 1st week of the crisis.
연구 동기 및 목표
- 러시아-우크라이나 위기 기간의 정치적 담론, 여론 형성 및 (허위)정보 확산 연구를 촉진한다.
- 실시간으로 공개 접근 가능한 트윗 데이터셋을 제공하여 시의적절한 위기 분석 연구를 가능하게 한다.
- 연구자들이 Twitter 데이터를 통해 정보 캠페인과 선전 활동을 추적하도록 한다.
- Twitter 가이드라인에 따라 매일 트윗 ID를 업데이트하고 공유하는 프로세스를 제공한다.
제안 방법
- 트위터 스트리밍 API를 사용한 키워드 기반 크롤링으로 실시간 트윗 수집.
- 위기가 진행됨에 따라 진화하는 키워드 목록을 유지하고 데이터 수집을 업데이트한다.
- 전체 트윗 대신 날짜별로 그룹화된 트윗 ID를 공개적으로 공유하며, Twitter 가이드라인을 준수한다.
- 트윗 ID로부터 트윗을 재구성하기 위해 Twarc, Tweepy, Hydrator 등의 오픈 소스 도구를 권장한다.
실험 결과
연구 질문
- RQ1위기 관련 활동의 첫 주 동안 Twitter 활동의 규모와 시간적 패턴은 어떠한가?
- RQ2러시아, 우크라이나, 주요 인물에 대해 담론을 지배하는 키워드, 해시태그, 멘션은 무엇인가?
- RQ3수집 데이터셋에서 재트윗 및 멘션으로 사용자 참여가 어떻게 나타나는가?
- RQ4제공된 트윗 ID를 플랫폼 가이드라인에 따라 연구자들이 어떻게 재사용하고 분석을 재현할 수 있는가?
주요 결과
- 지정된 키워드를 사용하여 2022년 3월 6일까지 160만 개가 넘는 트윗이 수집되었다.
- 수집 기간 동안 일일 트윗 수는 평균 약 20만 트윗이었다.
- 현재 데이터 스냅샷에는 90만 명이 넘는 사용자가 있다.
- 1.2백만 트윗 이상이 재트윗되었고, 최소 한 번 재트윗된 고유 트윗은 413,254건으로, 이러한 트윗당 평균 재트윗 수는 3회(표준편차 12.04)이다.
- 상위 해시태그에는 Ukraine, Russia, UkraineRussiaWar, Kyiv 등이 포함되며 ZelenskyyUa 및 POTUS와 같은 관련 멘션이 포함된다; 상위 멘션에는 Ukraine, Russia, NATO, UN 등이 있다.
- 데이터셋은 날짜별로 분배된 트윗 ID를 제공하며(파일당 최대 50,000 IDs), Twarc, Tweepy, Hydrator와 같은 도구로 재구성 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.