[论文解读] Visual Affect Around the World: A Large-scale Multilingual Visual Sentiment Ontology
本文提出了一种大规模多语言视觉情感本体(MVSO),通过从社交媒体多媒体中提取的形容词-名词对(ANP)捕捉具有文化与语言特异性的感情视觉概念。该研究引入了一种语言感知的分层聚类流程,将12种语言中的ANP统一整合,发布了一个包含736万张图像和15,600个情感偏倚概念的公开数据集,并表明不同文化间的情感感知存在显著差异,挑战了情感计算中普遍情感表达的假设。
Every culture and language is unique. Our work expressly focuses on the uniqueness of culture and language in relation to human affect, specifically sentiment and emotion semantics, and how they manifest in social multimedia. We develop sets of sentiment- and emotion-polarized visual concepts by adapting semantic structures called adjective-noun pairs, originally introduced by Borth et al. (2013), but in a multilingual context. We propose a new language-dependent method for automatic discovery of these adjective-noun constructs. We show how this pipeline can be applied on a social multimedia platform for the creation of a large-scale multilingual visual sentiment concept ontology (MVSO). Unlike the flat structure in Borth et al. (2013), our unified ontology is organized hierarchically by multilingual clusters of visually detectable nouns and subclusters of emotionally biased versions of these nouns. In addition, we present an image-based prediction task to show how generalizable language-specific models are in a multilingual context. A new, publicly available dataset of >15.6K sentiment-biased visual concepts across 12 languages with language-specific detector banks, >7.36M images and their metadata is also released.
研究动机与目标
- 为解决视觉情感识别中多语言与跨文化理解的不足,特别是在情感计算领域中的问题。
- 开发一种可扩展的、语言特定的方法,从社交媒体多媒体中发现情感极化的视觉概念(形容词-名词对)。
- 构建一个统一的、分层组织的多语言视觉情感本体(MVSO),以反映文化和语言的多样性。
- 发布一个大规模、公开可用的图像、元数据及语言特定检测器库的数据集,以支持跨语言情感分析。
- 探究视觉情感表达是否具有普适性,还是在不同语言和文化中具有特异性。
提出的方法
- 采用语言依赖的流程,对图像元数据进行词性标注,从多语言社交媒体内容中提取候选形容词-名词对(ANP)。
- 通过渐进式过滤技术去除错误或低覆盖率的ANP,确保语义一致性和视觉可检测性。
- 采用两阶段分层聚类方法,将视觉可检测的名词聚类为多语言的情感偏倚ANP的簇与子簇。
- 基于MVSO训练语言特定的视觉情感检测器,以支持跨语言情感预测。
- 本体采用分层结构:高层名词簇(如“食物”、“地点”)包含情感极化的ANP子簇(如“美味的食物”、“丑陋的地点”)。
- 发布一个包含超过736万张图像、MVSO标注及语言特定检测器库的大规模数据集,用于基准测试。
实验结果
研究问题
- RQ1在社交媒体多媒体中,视觉情感表达在不同文化和语言之间有何差异?
- RQ2语言特定的视觉情感模型在多大程度上能泛化到其他语言?
- RQ3能否从多样化的语言和文化来源中有效构建统一的多语言视觉情感本体?
- RQ4视觉情感概念是否被普遍感知,还是文化与语言背景显著影响情感感知?
- RQ5文化对视觉内容(如传统服饰、风景)的认知如何影响情感标注与模型预测?
主要发现
- MVSO在12种语言中包含超过15,600个情感偏倚的视觉概念,涵盖阿拉伯语、中文、德语和俄语等,具有高度的语言与文化多样性。
- 跨语言情感预测表明,拉丁语系模型(如意大利语、西班牙语、法语)在彼此之间泛化良好,其中意大利语在预测西班牙语和法语时达到最高跨语言准确率。
- 英语特定的情感模型在所有目标语言中表现出最低的准确率方差,可能归因于英语在全球范围内的普遍性及其在社交媒体中语言的一致性。
- 跨语言预测中的模型失败案例,如德语模型将意大利传统服饰错误分类为负面,表明情感感知存在文化差异。
- 中文模型错误地将一张英语雾天早晨的图像分类为正面,可能由于其与中国绘画美学的文化审美一致性。
- 法语中的“beau village”(美丽村庄)图像被西班牙语模型正确分类为正面,表明罗曼语系之间在风景美感感知上存在共享的文化认知。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。