[論文レビュー] Protest Activity Detection and Perceived Violence Estimation from Social Media Images
本稿では、40,764枚の地理的位置情報が付与されたプロテスト画像を含む、新たに収集された大規模なデータセットを用いて、ソーシャルメディア画像からプロテスト活動を検出するとともに、認識される暴力の度合いを推定するマルチタスク畳み込みニューラルネットワーク(CNN)を提案している。モデルは、参加者、視覚的属性、認識される暴力、感情の分類において優れた性能を示し、ブラック・ライズ・マター(Black Lives Matter)やウーマンズ・マーチ(Women’s March)などの世界的なプロテストイベントにおける暴力認識の顕著な空間的・時間的変動を明らかにした。
We develop a novel visual model which can recognize protesters, describe their activities by visual attributes and estimate the level of perceived violence in an image. Studies of social media and protests use natural language processing to track how individuals use hashtags and links, often with a focus on those items' diffusion. These approaches, however, may not be effective in fully characterizing actual real-world protests (e.g., violent or peaceful) or estimating the demographics of participants (e.g., age, gender, and race) and their emotions. Our system characterizes protests along these dimensions. We have collected geotagged tweets and their images from 2013-2017 and analyzed multiple major protest events in that period. A multi-task convolutional neural network is employed in order to automatically classify the presence of protesters in an image and predict its visual attributes, perceived violence and exhibited emotions. We also release the UCLA Protest Image Dataset, our novel dataset of 40,764 images (11,659 protest images and hard negatives) with various annotations of visual attributes and sentiments. Using this dataset, we train our model and demonstrate its effectiveness. We also present experimental results from various analysis on geotagged image data in several prevalent protest events. Our dataset will be made accessible at https://www.sscnet.ucla.edu/comm/jjoo/mm-protest/.
研究の動機と目的
- ソーシャルメディアにおける画像共有の増加にもかかわらず、プロテスト中の視覚的コンテンツの自動分析は未だ十分に検討されていないというギャップを埋めるため。
- 参加者の検出、活動の記述、プロテスト画像における認識される暴力と感情の推定が可能な視覚的モデルの開発を目的とする。
- 認識される暴力、視覚的属性、感情の詳細なラベルが付与された、大規模で地理的位置情報が付与されたプロテスト画像データセットを収集・公開すること。
- テキスト分析にとどまらない、視覚的データを用いた現実のプロテストダイナミクスの分析を実施し、ハッシュタグやソーシャルメディアテキストの分析を超えた知見を提供すること。
- 特にセンチメントと暴力認識に関して、プロテスト関連ツイートにおける視覚的およびテキスト的側面の整合性を調査すること。
提案手法
- 2013年から2017年までの間、11,659枚のプロテスト画像およびハードネガティブ例を含む、合計40,764枚の地理的位置情報が付与されたソーシャルメディア画像を収集し、認識される暴力、感情、視覚的属性について人間によるラベル付けを実施した。
- 共有される視覚的特徴を用いて、参加者の存在、視覚的属性(例:群衆の規模、武器の有無)の推定、認識される暴力、感情の予測を同時に実行するマルチタスクCNNを開発した。
- すべての予測ヘッドを同時に最適化できるように、マルチタスク損失関数を用いて、UCLAプロテスト画像データセット上でエンドツーエンドにモデルを学習した。
- 併せたツイートテキストに対してVADERセンチメント分析を実施し、予測された画像のセンチメントと暴力スコアをテキストのセンチメントと比較した。
- 地理的位置情報が付与された画像データを用いて空間的・時間的分析を実施し、イベントや地域ごとのプロテスト関連画像および暴力予測の分布をマップ化した。
- 予測された画像の暴力スコアと実際のラベルとの相関分析、およびマルチモーダルツイートにおけるテキストセンチメントとの比較を通じて、モデルの性能を検証した。
実験結果
リサーチクエスチョン
- RQ1視覚的特徴のみを用いて、深層学習モデルはプロテスト画像における参加者の検出と認識される暴力の推定をどれほど正確に行えるか?
- RQ2ブラック・ライズ・マター(Black Lives Matter)やウーマンズ・マーチ(Women’s March)などのプロテストイベントにおける、画像データから推定される暴力認識の空間的・時間的分布はどのようになっているか?
- RQ3プロテスト画像における暴力とセンチメントの視覚的側面は、付随するツイートのテキストセンチメントとどの程度相関しているか?
- RQ4プロテスト画像内の視覚的特徴は、現実のプロテストダイナミクスおよび暴力認識の公衆の認識をどの程度反映しているか?
- RQ5大規模で詳細にラベル付けされた視覚的データセットは、テキストベースのソーシャルメディア分析を超えて、社会運動の自動分析をどのように改善できるか?
主な発見
- 提案されたマルチタスクCNNモデルは、参加者の検出および認識される暴力の推定において統計的に有意な性能を示した。予測された画像の暴力スコアとテキストセンチメントとの間にはピアソン相関係数ρ = -0.080が観察された。
- モデルは、フェอรernaut(ミズーリ州)、バーリン(メリーランド州)、ニューヨークシティなどの主要なプロテストイベントが発生した地域で、より高い認識される暴力の度合いを検出しており、文書化された出来事と整合した。
- 空間的分析から、暴力的プロテスト画像の頻度は、特にプロテスト活動が活発な州において、#BlackLivesMatterハッシュタグの地理的広がりと強く相関していることが明らかになった。
- 統計的に有意ではあるが、テキストセンチメントと画像の暴力スコアの間には弱い相関(ρ = -0.080)が観察され、プロテスト関連ツイートにおける視覚的およびテキスト的側面の整合性が限定的であることが示された。
- 認識される暴力、視覚的属性、感情の詳細なラベルが付与された40,764枚の画像を含むUCLAプロテスト画像データセットは、同種のデータセットの中で世界最大級であり、プロテストの広範な視覚的分析を可能にした。
- モデルは、ブラック・ライズ・マター(Black Lives Matter)やウーマンズ・マーチ(Women’s March)などの多様なプロテストイベントに一般化可能な能力を示し、イベントごとの暴力認識のパターンの違いを明確に示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。