Skip to main content
QUICK REVIEW

[논문 리뷰] An Open-Source Benchmark of Deep Learning Models for Audio-Visual Apparent and Self-Reported Personality Recognition

Rongfan Liao, Siyang Song|arXiv (Cornell University)|2022. 10. 17.
Music and Audio Processing인용 수 4
한 줄 요약

이 논문은 자가 보고된 성격 인식과 외부 관찰자에 의한 성격 인식 모두에서 음성-시각 딥러닝 모델을 위한 첫 번째 오픈소스이자 표준화된 벤치마크를 소개한다. 두 개의 공개 데이터셋에서 15개의 모델을 평가한 결과, 시각 모델이 음성 모델보다 우수하며, 자가 보고된 성격보다 외부 관찰자에 의한 성격이 더 신뢰성 있게 예측됨을 확인했다. 또한, 일관되지 않은 훈련 방식으로 인해 재현된 모델들은 일반적으로 원본 성능을 떨어뜨리는 것으로 나타났다.

ABSTRACT

Personality determines a wide variety of human daily and working behaviours, and is crucial for understanding human internal and external states. In recent years, a large number of automatic personality computing approaches have been developed to predict either the apparent personality or self-reported personality of the subject based on non-verbal audio-visual behaviours. However, the majority of them suffer from complex and dataset-specific pre-processing steps and model training tricks. In the absence of a standardized benchmark with consistent experimental settings, it is not only impossible to fairly compare the real performances of these personality computing models but also makes them difficult to be reproduced. In this paper, we present the first reproducible audio-visual benchmarking framework to provide a fair and consistent evaluation of eight existing personality computing models (e.g., audio, visual and audio-visual) and seven standard deep learning models on both self-reported and apparent personality recognition tasks. Building upon a set of benchmarked models, we also investigate the impact of two previously-used long-term modelling strategies for summarising short-term/frame-level predictions on personality computing results. The results conclude: (i) apparent personality traits, inferred from facial behaviours by most benchmarked deep learning models, show more reliability than self-reported ones; (ii) visual models frequently achieved superior performances than audio models on personality recognition; (iii) non-verbal behaviours contribute differently in predicting different personality traits; and (iv) our reproduced personality computing models generally achieved worse performances than their original reported results. Our benchmark is publicly available at \url{https://github.com/liaorongfan/DeepPersonality}.

연구 동기 및 목표

  • 음성-시각 성격 계산 분야에서 표준화된 평가의 부족을 해결하기 위해 일관된 벤치마크 프레임워크를 구축함.
  • 기존 및 신규 딥러닝 모델에 대한 자가 보고된 성격 및 외부 관찰자 성격 인식에서 공정하고 재현 가능하며 비교 가능한 성능 평가를 가능하게 함.
  • 장기적 모델링 전략이 성격 인식 성능에 미치는 영향을 조사함.
  • 모델 재현성 향상과 커뮤니티 수용을 위해 오픈소스 코드 및 표준화된 전처리 및 훈련 파이프라인 제공.

제안 방법

  • 저자는 ChaLearn First Impression(외부 관찰자 성격) 및 UDIVA(자가 보고된 성격)라는 두 개의 공개 데이터셋에서 데이터 로딩, 전처리, 모델 훈련을 위한 통합된 오픈소스 프레임워크를 구현함.
  • 일관된 초모수 및 훈련 프로토콜을 사용하여, 두 데이터셋에서 8개의 기존 음성-시각 성격 모델과 7개의 널리 사용되는 딥러닝 모델(예: ResNet, VGG, Inception)을 평가함.
  • 시각 입력에 대한 표준화된 얼굴 자르기 및 정렬, 일관된 음성 특징 추출(MFCCs 등)을 포함하여 모델 간 변동성을 줄임.
  • 시간적 풀링 및 RNN 기반 집계와 같은 장기적 시간 모델링 전략을 체계적으로 평가하여 클립 수준 성격 예측 성능에 미치는 영향을 분석함.
  • 모든 모델는 동일한 설정에서 훈련 및 평가되어 공정한 비교와 재현 가능성을 확보함.
  • 벤치마크는 GitHub에 호스팅되어 있으며, 상세한 문서화를 통해 커뮤니티 기여 및 향후 모델 통합을 가능하게 함.

실험 결과

연구 질문

  • RQ1표준화된 조건 하에서 다양한 딥러닝 아키텍처가 음성-시각 외부 관찰자 성격 및 자가 보고된 성격 인식에서 어떻게 성능을 내는가?
  • RQ2시각 모odal과 음성 모달 간의 상대적 기여도는 무엇이며, 이는 성격 특성에 따라 어떻게 달라지는가?
  • RQ3장기적 시간 모델링 전략은 성격 인식에서 프레임 수준 예측 성능에 어떤 영향을 미치는가?
  • RQ4재현된 모델들이 원본 보고된 성능과 얼마나 유사한 성능을 달성하는가? 성능 격차를 초래하는 요인은 무엇인가?
  • RQ5입력 데이터 포맷(예: 자르고 정렬한 얼굴 vs. 전체 프레임)은 성격 인식 작업에서 모델 성능에 어떤 영향을 미치는가?

주요 결과

  • 외부 관찰자에 의해 유추되는 외적 성격 특성은 자가 보고된 성격 특성보다 딥러닝 모델에 의해 더 신뢰성 있게 예측됨을 확인하여, 비언어적 신호가 자각된 인식보다 관찰자의 인상에 더 잘 반영됨을 시사함.
  • 두 데이터셋 모두에서 시각 모델이 음성 모델보다 일관되게 뛰어난 성능을 보이며, 얼굴 행동이 언어적 비언어적 행동보다 성격 인식에 더 구분력 있는 단서를 포함하고 있음을 시사함.
  • 자르고 정렬한 얼굴 이미지를 사용할 경우 전체 프레임에 배경이 포함된 경우보다 약간 더 높은 성능를 기록함으로써, 시각 모델링에서 얼굴 집중의 중요성을 강조함.
  • 대부분의 벤치마크된 모델들이 원본 보고된 성능보다 낮은 성능를 기록함으로써, 원본 결과가 데이터셋 특화 최적화 및 표준화되지 않은 훈련 방식으로 인해 과대평가되었을 가능성이 있음을 시사함.
  • 다양한 성격 특성은 비언어적 행동과 다른 관계를 보이며, 일부 특성은 시각적 단서로, 일부는 음성으로, 일부는 특정 시간 모델링 척도가 필요로 함.
  • 정적 딥러닝 모델(예: ResNet)이 스페로-시계열 모델(예: 3D CNNs, LSTMs)보다 자주 뛰어난 성능를 보이며, 이는 이 맥락에서 시간 모델링이 항상 성능 향상에 기여하지는 않음을 시사함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.