[논문 리뷰] Protest Activity Detection and Perceived Violence Estimation from Social Media Images
이 논문은 새로운 대규모 지도된 프로테스트 이미지 데이터셋(40,764개의 지리적 태그가 부여된 프로테스트 이미지)을 사용하여 사회 미디어 이미지에서 시위 활동을 탐지하고 인식된 폭력성을 추정하기 위한 다중 작업 컨볼루션 신경망(CNN)을 제안한다. 모델은 시위자, 시각적 특성, 인식된 폭력성, 감정을 분류하는 데 뛰어난 성능을 보이며, 블랙 라이브스 매터와 월드 메이드 같은 글로벌 시위 행사에서 폭력성 인식의 상당한 공간적·시간적 변동성을 입증한다.
We develop a novel visual model which can recognize protesters, describe their activities by visual attributes and estimate the level of perceived violence in an image. Studies of social media and protests use natural language processing to track how individuals use hashtags and links, often with a focus on those items' diffusion. These approaches, however, may not be effective in fully characterizing actual real-world protests (e.g., violent or peaceful) or estimating the demographics of participants (e.g., age, gender, and race) and their emotions. Our system characterizes protests along these dimensions. We have collected geotagged tweets and their images from 2013-2017 and analyzed multiple major protest events in that period. A multi-task convolutional neural network is employed in order to automatically classify the presence of protesters in an image and predict its visual attributes, perceived violence and exhibited emotions. We also release the UCLA Protest Image Dataset, our novel dataset of 40,764 images (11,659 protest images and hard negatives) with various annotations of visual attributes and sentiments. Using this dataset, we train our model and demonstrate its effectiveness. We also present experimental results from various analysis on geotagged image data in several prevalent protest events. Our dataset will be made accessible at https://www.sscnet.ucla.edu/comm/jjoo/mm-protest/.
연구 동기 및 목표
- 소셜 미디어에서 이미지 공유가 증가하는 상황에도 불구하고, 시위 기간 동안의 시각적 콘텐츠 자동 분석이 미흡한 점을 보완하기 위해.
- 시위자 탐지, 활동 기술, 인식된 폭력성 및 감정 추정이 가능한 시각적 모델을 개발하기 위해.
- 인식된 폭력성, 시각적 특성, 정서에 대한 세부 주석이 부여된 대규모 지도된 시위 이미지 데이터셋을 수집하고 공개하기 위해.
- 해시태그와 소셜 미디어 텍스트 분석을 넘어서 실제 시위의 역동성을 시각적 데이터를 통해 분석하기 위해.
- 특히 정서와 폭력성 인식 측면에서, 시위 관련 트윗의 시각적 및 텍스트적 신호 간의 일치 정도를 조사하기 위해.
제안 방법
- 2013~2017년 기간 동안 40,764개의 지리적 태그가 부여된 소셜 미디어 이미지를 수집하였으며, 이 중 11,659개는 시위 이미지 및 하드 네거티브 포함. 인간 주석을 통해 인식된 폭력성, 감정, 시각적 특성에 대한 레이블을 부여함.
- 공유된 시각적 특징을 사용하여 시위자 존재 여부, 시각적 특성(예: 군중 수, 무기 유무), 인식된 폭력성, 감정을 동시에 예측하는 다중 작업 CNN 개발.
- 모든 예측 헤드를 동시에 최적화하기 위해 다중 작업 손실 함수를 사용하여, UCLA 시위 이미지 데이터셋을 기반으로 엔드 투 엔드로 모델을 훈련함.
- 함께 제공된 트윗 텍스트에 VADER 정서 분석을 적용하여, 예측된 이미지 정서와 텍스트 정서, 폭력성 점수 간 비교 수행.
- 지리적 태그가 부여된 이미지 데이터를 바탕으로 공간적·시간적 분석을 수행하여, 이벤트 및 지역별로 시위 관련 이미지와 폭력성 예측의 분포를 맵핑함.
- 예측된 이미지 폭력성과 실제 주석 간 상관관계 분석 및 다중 모odal 트윗의 텍스트 정서와의 비교를 통해 모델 성능을 검증함.
실험 결과
연구 질문
- RQ1딥 러닝 모델이 시각적 특징만을 사용하여 프로테스트 이미지에서 시위자 탐지 및 인식된 폭력성 추정을 얼마나 정확하게 수행할 수 있는가?
- RQ2블랙 라이브스 매터와 월드 메이드와 같은 시위 행사에서, 이미지 데이터로부터 유추된 인식된 폭력성의 공간적·시간적 분포는 어떻게 되는가?
- RQ3함께 제공된 트윗의 텍스트 정서와 비교했을 때, 시위 이미지의 폭력성 및 정서적 시각적 신호는 어떤 상관관계를 가지는가?
- RQ4시위 이미지의 시각적 특징이 실제 시위의 역동성과 폭력성에 대한 대중의 인식을 어느 정도 반영하는가?
- RQ5세부 주석이 부여된 대규모 시각적 데이터셋은 텍스트 기반 소셜 미디어 분석을 넘어서 사회 운동의 자동 분석을 어떻게 향상시킬 수 있는가?
주요 결과
- 제안된 다중 작업 CNN 모델은 시위자 탐지 및 인식된 폭력성 추정에서 통계적으로 유의미한 성능을 달성하였으며, 예측된 이미지 폭력성과 텍스트 정서 간 피어슨 상관계수는 -0.080을 기록함.
- 모델은 페어거슨(미주리주), بالت모어(メリ틀랜드주), 뉴욕 시티 등 주요 시위 행사가 발생한 지역에서 높은 수준의 인식된 폭력성을 탐지하였으며, 기록된 사건들과 일치함.
- 공간 분석 결과, 폭력성 시위 이미지의 빈도가 #BlackLivesMatter 해시태그의 지리적 확산과 강하게 상관관계를 보였으며, 특히 시위 활동이 높은 주에서 두드러짐.
- 통계적으로 유의미한 결과였지만, 텍스트 정서와 이미지 폭력성 간 상관계수는 낮았음(ρ = -0.080), 이는 시위 관련 트윗에서 시각적 및 텍스트적 신호 간 일치도가 제한적임을 시사함.
- 40,764개의 이미지와 세부 주석을 포함한 UCLA 시위 이미지 데이터셋은 유사한 유형의 가장 큰 공개 데이터셋이며, 시위의 대규모 시각적 분석을 가능하게 함.
- 모델는 블랙 라이브스 매터와 월드 메이드와 같은 다양한 시위 행사 간 폭력성 인식 패턴의 차이를 보이며 일반화 능력을 입증함.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.