Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Affect Around the World: A Large-scale Multilingual Visual Sentiment Ontology

Brendan Jou, Tao Chen|arXiv (Cornell University)|2015. 08. 16.
Sentiment Analysis and Opinion Mining참고 문헌 36인용 수 23
한 줄 요약

이 논문은 사회적 멀티미디어에서 유도된 형용사-명사어구(ANP)를 사용하여 문화 및 언어에 특화된 정서적 시각적 개념을 포괄하는 대규모 다국어 시각 정서 온톨로지(MVSO)를 제안한다. 언어 인지 기반의 계층적 클러스터링 파이pline을 도입하여 12개 언어 간 ANP를 통합하고, 736만 장의 이미지와 15,600개의 정서 편향 개념을 포함하는 공개 데이터셋을 제공하며, 정서 인식이 문화 간에 상당히 다름을 입증함으로써 정서 컴퓨팅 분야에서 정서 표현의 보편성에 대한 가정을 도전한다.

ABSTRACT

Every culture and language is unique. Our work expressly focuses on the uniqueness of culture and language in relation to human affect, specifically sentiment and emotion semantics, and how they manifest in social multimedia. We develop sets of sentiment- and emotion-polarized visual concepts by adapting semantic structures called adjective-noun pairs, originally introduced by Borth et al. (2013), but in a multilingual context. We propose a new language-dependent method for automatic discovery of these adjective-noun constructs. We show how this pipeline can be applied on a social multimedia platform for the creation of a large-scale multilingual visual sentiment concept ontology (MVSO). Unlike the flat structure in Borth et al. (2013), our unified ontology is organized hierarchically by multilingual clusters of visually detectable nouns and subclusters of emotionally biased versions of these nouns. In addition, we present an image-based prediction task to show how generalizable language-specific models are in a multilingual context. A new, publicly available dataset of >15.6K sentiment-biased visual concepts across 12 languages with language-specific detector banks, >7.36M images and their metadata is also released.

연구 동기 및 목표

  • 정서 컴퓨팅 분야에서 다국어 및 다문화 이해의 부족을 해결하기 위해.
  • 사회적 멀티미디어에서부터 정서 극성 시각 개념(형용사-명사어구)을 발견하기 위한 확장 가능하고 언어별로 특화된 방법을 개발하기 위해.
  • 문화적·언어적 다양성을 반영하는 통합된 계층적 다국어 시각 정서 온톨로지(MVSO)를 구축하기 위해.
  • 다국어 정서 분석을 위한 벤치마킹을 위해 이미지, 메타데이터 및 언어별 검출기 뱅크를 포함한 대규모 공개 데이터셋을 제공하기 위해.
  • 시각적 정서 표현이 보편적인지, 아니면 문화 및 언어에 따라 특화되어 있는지 조사하기 위해.

제안 방법

  • 이중어의 의존성에 기반한 파이pline은 다국어 소셜 미디어 콘텐츠에서 후보 형용사-명사어구(ANP)를 추출하기 위해 이미지 메타데이터에 품사 태깅을 적용한다.
  • 진행적 필터링 기법을 통해 잘못된 또는 커버리지가 낮은 ANP를 제거하여 의미적 일관성과 시각적 탐지 가능성을 확보한다.
  • 두 단계로 구성된 계층적 클러스터링 접근법을 통해 시각적으로 탐지 가능한 명사를 다국어 클러스터와 정서 편향 ANP의 하위클러스터로 그룹화한다.
  • MVSO 기반으로 언어별 시각 정서 검출기를 훈련시어 다국어 정서 예측을 가능하게 한다.
  • 온톨로지는 계층적으로 구성되어 있으며, 고수준 명사 클러스터(예: '음식', '장소')가 정서 극성 ANP(예: '맛있는 음식', '지저분한 장소')의 하위클러스터를 포함한다.
  • MVSO 태깅과 언어별 검출기 뱅크를 포함한 736만 장 이상의 이미지로 구성된 대규모 데이터셋을 공개한다.

실험 결과

연구 질문

  • RQ1사회적 멀티미디어에서 시각적 정서 표현은 문화와 언어 간에 어떻게 다를까?
  • RQ2언어별로 특화된 시각 정서 모델이 다른 언어로 일반화되는 정도는 어느 정도일까?
  • RQ3다양한 언어적·문화적 자료에서 유기적으로 통합된 통합된 다국어 시각 정서 온톨로지를 효과적으로 구성할 수 있는가?
  • RQ4시각적 정서 개념은 보편적으로 인식되는가, 아니면 문화적·언어적 맥락이 정서 인식에 상당한 영향을 미치는가?
  • RQ5문화적 정서 인식(예: 전통 의복, 풍경 등)이 정서 레이블링 및 모델 예측에 어떻게 영향을 미치는가?

주요 결과

  • MVSO는 아랍어, 중국어, 독일어, 러시아어 등 12개 언어에서 15,600개 이상의 정서 편향 시각 개념을 포함하며, 높은 언어적·문화적 다양성을 확보하고 있다.
  • 다국어 정서 예측 결과, 라틴어권 언어 모델(예: 이탈리아어, 스페인어, 프랑스어)은 상호 간에 잘 일반화되며, 이탈리아어 모델이 스페인어 및 프랑스어에 대해 가장 높은 다국어 정확도를 기록했다.
  • 영어 전용 정서 모델은 모든 목표 언어에서 정확도 변동성이 가장 낮았으며, 이는 영어의 글로벌 보편성과 소셜 미디어에서의 언어 일관성 때문일 것이다.
  • 교차 언어 예측 실패 사례, 예를 들어 독일어 모델이 이탈리아 전통 의복을 부정적이라고 잘못 분류한 것은 정서 인식의 문화적 차이를 시사한다.
  • 중국어 모델이 영어어권의 dense 안개 낀 아침 이미지를 긍정적으로 잘못 분류한 것은 중국화 미학과의 문화적 미학적 일치 때문일 수 있다.
  • 프랑스어의 '아름다운 마을' 이미지가 스페인어 모델에 의해 올바르게 긍정으로 분류된 것은 라틴어권 언어 간에 경관 미학에 대한 공유된 문화적 인식이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.