[論文レビュー] Just Another Day on Twitter: A Complete 24 Hours of Twitter Data
論文は完全な24時間のTwitterデータセットを初めて提示します(2022年9月21日時点で375Mツイート)。全要旨クエリを用いてアクティビティ、ボット普及、言語、トピック、ユーザー特性を研究するためのデータセットで、プラットフォーム所有権変更前のベースラインを確立します。
At the end of October 2022, Elon Musk concluded his acquisition of Twitter. In the weeks and months before that, several questions were publicly discussed that were not only of interest to the platform's future buyers, but also of high relevance to the Computational Social Science research community. For example, how many active users does the platform have? What percentage of accounts on the site are bots? And, what are the dominating topics and sub-topical spheres on the platform? In a globally coordinated effort of 80 scholars to shed light on these questions, and to offer a dataset that will equip other researchers to do the same, we have collected all 375 million tweets published within a 24-hour time period starting on September 21, 2022. To the best of our knowledge, this is the first complete 24-hour Twitter dataset that is available for the research community. With it, the present work aims to accomplish two goals. First, we seek to answer the aforementioned questions and provide descriptive metrics about Twitter that can serve as references for other researchers. Second, we create a baseline dataset for future research that can be used to study the potential impact of the platform's ownership change.
研究の動機と目的
- Prior studiesのサンプリングバイアスとデータ品質の懸念に対処するための完全な24時間のTwitterデータセットを提供する。
- データ収集パイプラインと方法を説明し、時間的バイアスを最小化し代表性を最大化する。
- 研究者の参照とTwitter所有権変更前のベースラインとなる記述的指標を提供する。
- 将来の研究をプラットフォームの動态、ボット普及、言語分布、コンテンツトピックの研究を可能にする。
提案手法
- 時間分割された1秒タスク設計を用いて、時間バイアスを軽減するためにAcademics APIで24時間のTwitterデータを収集する(2022年9月20日15:00 UTC – 9月21日14:59 UTC)。
- ウィンドウ内のすべてのツイートを捉えるため、Twitterの言語タグ付け(lang: コード)と長いOR言語構造を活用したネガティブ言語を含むクエリ戦略を使用する。
- サンプルを安定化させるため、日を86,400タスクに分割し、作成時刻から10分後に開始する。
- バックログを回避し高い時間的カバレッジを確保するため、複数の並列APIトークン(80プロセス)を実装する。
- プライバシーと再現性を支援するため、データセットをFAIR原則の下でツイートIDとして提供する(CC BY 4.0)。

実験結果
リサーチクエスチョン
- RQ1代表日の完全な24時間期間にわたるTwitterアクティビティの規模と構成はどうなるか?
- RQ21日を通じてのアクティブアカウント、言語、コンテンツタイプ(テキスト、メディア、ジオタグ)の分布はどうなるか?
- RQ3収集日の日にボット風の挙動の有病率と特徴はどうか?
- RQ4ハッシュタグとコンテンツカテゴリで反映される24時間の議論の支配的なトピックとコミュニティは何か?
- RQ5これらのベースライン指標は、特にプラットフォーム所有権変更を踏まえた将来の研究にどう影響するか?
主な発見
- データセットには40,199,195アカウントから374,937,971ツイートが含まれ、約1%のユーザーが約350万ツイートを生成し、全ツイートの50%は175,000アカウントから発生する。
- 平均して1秒あたり約4,340ツイートが収集され(範囲は2,989–8,955)、各時間の最初の1分間でツイート活動率が15.5%高い。
- ツイートの79.2%はリツイート・引用・返信で、20.8%がオリジナルツイート。日全体のリツイート合計は約4010億件のパフォーマンス。
- 言語:15言語がツイートの92.5%を占める。全球でのジオタグ付きツイートは0.5%、トップのジオタグ国は米国、ブラジル、日本、サウジアラビア、インド。
- メディア:112,779,266件のメディア添付(76.9% 写真、20.7% 動画、2.4% GIF)、ジオタグ付きツイートは0.5%。
- ボット普及(BotometerLite経由):アクティブアカウントの約20%がボット風スコア0.5以上を示す;古いアカウントやツイート数の多いアカウントでボット風挙動が高い。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。