QUICK REVIEW

[論文レビュー] An Open-Source Benchmark of Deep Learning Models for Audio-Visual Apparent and Self-Reported Personality Recognition

Rongfan Liao, Siyang Song|arXiv (Cornell University)|Oct 17, 2022

Music and Audio Processing被引用数 4

ひとこと要約

本論文は、自己報告と外見上の性格認識の両方における音声・視覚的ディーブラーニングモデルのための、初めてのオープンソースで標準化されたベンチマークを紹介する。15のモデルを2つの公開データセットで評価した結果、視覚モデルが音声モデルを上回り、外見上の性格が自己報告の性格よりも信頼性が高いと判明した。また、再現可能なモデルは、一貫性のないトレーニング手法のため、通常、元の結果を下回ることが明らかになった。

ABSTRACT

Personality determines a wide variety of human daily and working behaviours, and is crucial for understanding human internal and external states. In recent years, a large number of automatic personality computing approaches have been developed to predict either the apparent personality or self-reported personality of the subject based on non-verbal audio-visual behaviours. However, the majority of them suffer from complex and dataset-specific pre-processing steps and model training tricks. In the absence of a standardized benchmark with consistent experimental settings, it is not only impossible to fairly compare the real performances of these personality computing models but also makes them difficult to be reproduced. In this paper, we present the first reproducible audio-visual benchmarking framework to provide a fair and consistent evaluation of eight existing personality computing models (e.g., audio, visual and audio-visual) and seven standard deep learning models on both self-reported and apparent personality recognition tasks. Building upon a set of benchmarked models, we also investigate the impact of two previously-used long-term modelling strategies for summarising short-term/frame-level predictions on personality computing results. The results conclude: (i) apparent personality traits, inferred from facial behaviours by most benchmarked deep learning models, show more reliability than self-reported ones; (ii) visual models frequently achieved superior performances than audio models on personality recognition; (iii) non-verbal behaviours contribute differently in predicting different personality traits; and (iv) our reproduced personality computing models generally achieved worse performances than their original reported results. Our benchmark is publicly available at \url{https://github.com/liaorongfan/DeepPersonality}.

研究の動機と目的

音声・視覚的性格認識分野における標準化された評価の欠如を是正するため、一貫性のあるベンチマークフレームワークを確立すること。
自己報告および外見上の性格認識の両方における、既存および新規のディープラーニングモデルの公平で再現可能かつ比較可能な性能評価を可能にすること。
長期間のモデリング戦略が性格認識性能に与える影響を調査すること。
コミュニティの再現性向上と採用促進を目的として、オープンソースのコードおよび標準化された前処理・トレーニングパイプラインを提供すること。

提案手法

著者らは、ChaLearn First Impression（外見上の性格）およびUDIVA（自己報告の性格）という2つの公開データセットを対象として、データロード、前処理、モデルトレーニングのための統一的でオープンソースのフレームワークを実装した。
同じハイパーパrameterとトレーニングプロトコルを用いて、8つの既存の音声・視覚的性格認識モデルと、7つの広く使われているディープラーニングモデル（例：ResNet、VGG、Inception）を、両データセットでベンチマーク化した。
フレームワークには、視覚入力のための標準化された顔のクロッピングとアライメント、および音声特徴抽出（例：MFCC）の標準化が含まれており、モデル間のばらつきを低減した。
時間的プーリングやRNNベースの集約といった、長期間モデリング戦略を体系的に評価し、クリップ単位の性格認識性能への影響を検証した。
すべてのモデルは同一の環境でトレーニングおよび評価されたため、公平な比較と再現性が保証された。
ベンチマークはGitHubにホスティングされており、詳細なドキュメンテーションを備えており、コミュニティの貢献や将来のモデル統合を可能としている。

実験結果

リサーチクエスチョン

RQ1標準化された条件下で、異なるディープラーニングアーキテクチャは、音声・視覚的外見上および自己報告の性格認識において、どのように性能を発揮するか？
RQ2視覚的モダリティと音声的モダリティの相対的な寄与度は何か？また、性格特徴ごとにその寄与度はどのように変化するか？
RQ3長期間の時間的モデリング戦略は、フレーム単位の予測性能にどのように影響を与えるか？
RQ4再現されたモデルは、元の報告結果とどの程度同等の性能を達成できるか？また、性能差の主な要因は何か？
RQ5入力データ形式（例：クロップされた顔 vs. フルフレーム）は、性格認識タスクにおけるモデル性能にどのように影響を与えるか？

主な発見

外見上の性格特徴（顔の行動から推定される）は、自己報告の性格特徴よりも、ディープラーニングモデルによってより信頼性高く予測可能である。これは、非言語的行動が自己認識よりも観察者の印象をよりよく反映していることを示している。
視覚モデルは、両データセットにおいて一貫して音声モデルを上回った。これは、顔の行動が声の非言語的行動よりも、性格認識により特徴的な手がかりを含んでいることを示唆している。
クロップされアライメントされた顔画像を用いることで、背景を含むフルフレーム画像を用いる場合よりもわずかに高い性能が得られた。これは、視覚モデリングにおいて顔の焦点が重要であることを強調している。
ほとんどのベンチマーク対象モデルは、元の報告結果よりも低い性能を示した。これは、元の結果がデータセット固有のチューニングや標準化されていないトレーニング手法によるもので、過大評価されている可能性があることを示している。
異なる性格特徴は、非言語的行動と異なる関係を持つ。一部の特徴は視覚的手がかりで、他の特徴は音声的手がかりで、一部の特徴は特定の時間的モデリングスケールを必要としている。
静的ディープラーニングモデル（例：ResNet）は、空間的・時間的モデル（例：3D CNN、LSTM）を頻繁に上回った。これは、この文脈では時間的モデリングが必ずしも性能向上に寄与するとは限らないことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。