Skip to main content
QUICK REVIEW

[論文レビュー] #greysanatomy vs. #yankees: Demographics and Hashtag Use on Twitter

Jisun An, Ingmar Weber|arXiv (Cornell University)|Mar 7, 2016
Authorship Attribution and Profiling被引用数 45
ひとこと要約

本研究では、346,050人のニューヨーク在住ユーザーのTwitterプロフィール画像を顔認識分析することで性別、年齢、人種を推定し、12か月間にわたりハッシュタグの使用状況を異なる人種的・文化的背景を持つグループ間で分析した。その結果、#blacklivesmatter はアフリカ系アメリカ人の間で顕著に高い使用頻度を示した一方で、白人ではそれほど顕著でないなど、グループ固有のハッシュタグパターンが明らかになった。これは、集団レベルでのトレンド分析では、オンライン行動における重要な人種的・文化的な違いが見過ごされがちなことを示している。

ABSTRACT

Demographics, in particular, gender, age, and race, are a key predictor of human behavior. Despite the significant effect that demographics plays, most scientific studies using online social media do not consider this factor, mainly due to the lack of such information. In this work, we use state-of-the-art face analysis software to infer gender, age, and race from profile images of 350K Twitter users from New York. For the period from November 1, 2014 to October 31, 2015, we study which hashtags are used by different demographic groups. Though we find considerable overlap for the most popular hashtags, there are also many group-specific hashtags.

研究の動機と目的

  • SNS研究において人種的・文化的要因が十分に考慮されていない現状を踏まえ、性別・年齢・人種ごとのTwitterにおけるハッシュタグ使用様式を調査すること。
  • SNSデータに限られた人種的・文化的背景の情報が欠如している問題を解決するため、最新の顔認識ソフトウェアを用いてプロフィール画像から性別・年齢・人種を推定すること。
  • 特定のハッシュタグが特定のグループに特異的または顕著に使用されているかどうかを同定し、隠れた行動パターンを明らかにすること。
  • 集団レベルでのハッシュタグトレンド分析が、特に代表されていない人種的・文化的少数派において顕著なグループ固有の行動を隠してしまうことの程度を示すこと。
  • プロフィール画像からの人種的・文化的背景の推定が大規模に実行可能でかつ価値があることを示し、より包摂的なSNS研究の推進を提言すること。

提案手法

  • FollowerWonkの「プロフィール検索」機能を用いて、位置情報に基づくクエリでニューヨーク在住の230万人のTwitterユーザーを収集した。
  • 活動的で長期的なユーザー(10件以上のツイート、3か月以上前にアカウント登録、過去3か月間に活動あり)に絞り込み、767,300人のユーザーを保った。
  • 顔認識の最先端技術を用いて、顔が検出可能な346,050人のユーザーの性別・年齢・人種を推定した。
  • 2014年11月から2015年10月の期間にわたり、これらのユーザーから1億5,600万件のツイートを収集・分析した。
  • カイ二乗検定とファイ係数を用いて、特定のグループに顕著に差を示すハッシュタグを同定した。
  • ファイ係数に基づきハッシュタグの識別力( discriminatory power )を順位付けし、年齢+性別+人種といった複合的なグループ属性間での使用状況を比較分析した。

実験結果

リサーチクエスチョン

  • RQ1Twitter上でのハッシュタグ使用は、性別・年齢・人種といった異なるグループ間でどのように異なるか?
  • RQ2最も人気のあるハッシュタグはどの程度グループ間で重複しており、どこで乖離しているか?
  • RQ3どのハッシュタグが特定のグループに特異的または顕著に使用されており、それらはどのように同定できるか?
  • RQ4ハッシュタグ使用頻度は、年齢や人種といった要因によって体系的に変化するか?
  • RQ5集団レベルでのハッシュタグ分析は、とりわけ代表されていない人種的・文化的少数派において、グループ固有の行動をどの程度隠蔽しているか?

主な発見

  • 上位20位までのハッシュタグは、グループ間で顕著な重複を示しており、#nyc はすべてのグループで最も広く使われた。
  • 全体的な類似性にもかかわらず、グループ固有のハッシュタグが明確に浮き彫りになった:アフリカ系アメリカ人の間では#blacklivesmatter が第4位にランクされたが、白人では第19位にとどまり、顕著な人種的差が確認された。
  • #asianamerican はアジア系アメリカ人の間で、#growingupblack はアフリカ系アメリカ人の間で、それぞれ高いファイ係数を示し、顕著な識別力を持っていた。
  • 45〜54歳以上の中高年層は、18歳未満の若年層(18.8%)よりも高いハッシュタグ使用率(28.9%)を示しており、情報発信や自己記錧行動の傾向が強いことが示唆された。
  • 最も高いハッシュタグツイート率(39.5%)は、高齢・黒人・女性のユーザーに観察され、強い交差的エンゲージメントのパターンが確認された。
  • グループの規模とハッシュタグ使用頻度との間に統計的に有意な相関は認められず、少数派グループでも特異的かつ意味のあるオンライン行動を示す可能性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。