[论文解读] Protest Activity Detection and Perceived Violence Estimation from Social Media Images
本文提出一种多任务卷积神经网络(CNN),通过使用新收集的大规模地理标记抗议图像数据集(共40,764张),实现从社交媒体图像中检测抗议活动并估计感知暴力水平。该模型在分类抗议者、视觉特征、感知暴力及情绪方面表现优异,揭示了像“黑人的命也是命”和“女性游行”等全球抗议事件中暴力感知存在显著的空间与时间差异。
We develop a novel visual model which can recognize protesters, describe their activities by visual attributes and estimate the level of perceived violence in an image. Studies of social media and protests use natural language processing to track how individuals use hashtags and links, often with a focus on those items' diffusion. These approaches, however, may not be effective in fully characterizing actual real-world protests (e.g., violent or peaceful) or estimating the demographics of participants (e.g., age, gender, and race) and their emotions. Our system characterizes protests along these dimensions. We have collected geotagged tweets and their images from 2013-2017 and analyzed multiple major protest events in that period. A multi-task convolutional neural network is employed in order to automatically classify the presence of protesters in an image and predict its visual attributes, perceived violence and exhibited emotions. We also release the UCLA Protest Image Dataset, our novel dataset of 40,764 images (11,659 protest images and hard negatives) with various annotations of visual attributes and sentiments. Using this dataset, we train our model and demonstrate its effectiveness. We also present experimental results from various analysis on geotagged image data in several prevalent protest events. Our dataset will be made accessible at https://www.sscnet.ucla.edu/comm/jjoo/mm-protest/.
研究动机与目标
- 为解决社交媒体上图像分享激增背景下,抗议期间视觉内容自动化分析的不足,该研究旨在填补这一研究空白。
- 开发一种视觉模型,能够检测抗议者、描述其活动,并估计抗议图像中的感知暴力与情绪。
- 收集并发布一个大规模、地理标记的抗议图像数据集,包含对感知暴力、视觉特征和情绪的详细标注。
- 利用视觉数据分析现实世界中的抗议动态,提供超越标签和社交媒体文本分析的洞察。
- 探究抗议相关推文中文本与视觉线索之间的一致性,特别是关于情绪与暴力感知方面。
提出的方法
- 从2013–2017年收集了40,764张地理标记的社交媒体图像,包括11,659张抗议图像及困难负样本,均由人工标注感知暴力、情绪和视觉特征标签。
- 开发一种多任务CNN,通过共享视觉特征,联合预测抗议者存在、视觉特征(如人群规模、武器)以及感知暴力与情绪。
- 在UCLA抗议图像数据集上端到端训练模型,采用监督学习与多任务损失函数,同时优化所有预测头。
- 对伴随的推文文本使用VADER情感分析,比较文本情感与预测图像情感及暴力得分的一致性。
- 对地理标记的图像数据应用空间与时间分析,绘制抗议相关图像及暴力预测在事件与区域间的分布。
- 通过预测图像暴力与真实标注之间的相关性分析,以及与多模态推文中文本情感的对比,验证模型性能。
实验结果
研究问题
- RQ1仅使用视觉特征,深度学习模型在抗议图像中检测抗议者并估计感知暴力的准确性如何?
- RQ2从图像数据推断,像“黑人的命也是命”和“女性游行”等抗议事件中,感知暴力的空间与时间分布如何?
- RQ3抗议图像中的暴力与情绪视觉线索,与伴随推文中文本情感的相关性如何?
- RQ4抗议图像中的视觉特征在多大程度上反映了现实世界中的抗议动态与公众对暴力的感知?
- RQ5大规模、细粒度标注的视觉数据集能否在文本社交媒体分析之外,提升对社会运动的自动化分析能力?
主要发现
- 所提出的多任务CNN模型在检测抗议者与估计感知暴力方面表现显著,预测图像暴力与文本情感之间的皮尔逊相关系数为-0.080。
- 模型在重大抗议事件发生地区(如密苏里州弗格森、马里兰州巴尔的摩和纽约市)检测到更高的感知暴力水平,与记录事件一致。
- 空间分析显示,暴力抗议图像的频率与#BlackLivesMatter标签的地理传播高度相关,尤其在抗议活动频繁的州。
- 尽管具有统计显著性,文本情感与图像暴力之间的相关性较弱(ρ = -0.080),表明抗议相关推文中视觉与文本线索的一致性有限。
- UCLA抗议图像数据集包含40,764张图像及详细标注,是目前公开可用的最大同类数据集,支持抗议活动的大规模视觉分析。
- 该模型在多种抗议事件中展现出良好的泛化能力,揭示了“黑人的命也是命”与“女性游行”等事件在暴力感知上的显著差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。