[论文解读] An Open-Source Benchmark of Deep Learning Models for Audio-Visual Apparent and Self-Reported Personality Recognition
本文提出了首个针对自报与外显人格识别的开源、标准化音频-视觉深度学习模型基准,评估了15个模型在两个公开数据集上的表现。结果表明,视觉模型优于音频模型,外显人格比自报人格更易被可靠预测,且复现模型的性能普遍低于原始结果,主要由于训练实践不一致。
Personality determines a wide variety of human daily and working behaviours, and is crucial for understanding human internal and external states. In recent years, a large number of automatic personality computing approaches have been developed to predict either the apparent personality or self-reported personality of the subject based on non-verbal audio-visual behaviours. However, the majority of them suffer from complex and dataset-specific pre-processing steps and model training tricks. In the absence of a standardized benchmark with consistent experimental settings, it is not only impossible to fairly compare the real performances of these personality computing models but also makes them difficult to be reproduced. In this paper, we present the first reproducible audio-visual benchmarking framework to provide a fair and consistent evaluation of eight existing personality computing models (e.g., audio, visual and audio-visual) and seven standard deep learning models on both self-reported and apparent personality recognition tasks. Building upon a set of benchmarked models, we also investigate the impact of two previously-used long-term modelling strategies for summarising short-term/frame-level predictions on personality computing results. The results conclude: (i) apparent personality traits, inferred from facial behaviours by most benchmarked deep learning models, show more reliability than self-reported ones; (ii) visual models frequently achieved superior performances than audio models on personality recognition; (iii) non-verbal behaviours contribute differently in predicting different personality traits; and (iv) our reproduced personality computing models generally achieved worse performances than their original reported results. Our benchmark is publicly available at \url{https://github.com/liaorongfan/DeepPersonality}.
研究动机与目标
- 为解决音频-视觉人格计算中缺乏标准化评估的问题,建立一致的基准框架。
- 实现对现有及新型深度学习模型在自报与外显人格识别任务中公平、可复现且可比较的性能评估。
- 研究长期建模策略对人格识别性能的影响。
- 提供开源代码及标准化的预处理与训练流程,以提升模型可复现性并促进社区采纳。
提出的方法
- 作者在两个公开数据集——ChaLearn First Impression(外显人格)和 UDIVA(自报人格)——上实现了统一的、开源的框架,涵盖数据加载、预处理与模型训练。
- 在两个数据集上,使用一致的超参数与训练协议,对八个现有的音频-视觉人格识别模型以及七个广泛使用的深度学习模型(如 ResNet、VGG、Inception)进行基准测试。
- 该框架包含标准化的人脸裁剪与对齐处理,以减少视觉输入的差异性;同时采用一致的音频特征提取方法(如 MFCCs),降低模型间变异性。
- 系统性地评估长期建模策略(如时间池化、RNN聚合)对视频片段级人格预测的影响。
- 所有模型均在相同设置下进行训练与评估,以确保公平比较与可复现性。
- 该基准托管于 GitHub,附有详细文档,支持社区贡献与未来模型集成。
实验结果
研究问题
- RQ1在标准化条件下,不同深度学习架构在音频-视觉外显与自报人格识别中的表现如何?
- RQ2视觉与音频模态对人格识别的相对贡献如何?这种贡献在不同人格特质间是否存在差异?
- RQ3长期时间建模策略如何影响帧级预测在人格识别中的性能?
- RQ4复现模型在多大程度上能达到原始报告结果的性能水平?性能差距的主要成因是什么?
- RQ5输入数据格式(如裁剪人脸 vs. 全帧图像)如何影响人格识别任务中的模型性能?
主要发现
- 外显人格特质(由面部行为推断)比自报人格特质更易被深度学习模型可靠预测,表明非语言线索比自我认知更能反映观察者印象。
- 在两个数据集中,视觉模型始终优于音频模型,表明面部行为所含的判别性线索多于语音非语言行为。
- 使用裁剪并对齐的人脸图像通常比使用含背景的全帧图像表现略优,凸显面部聚焦在视觉建模中的重要性。
- 大多数基准模型在复现时性能低于原始报告结果,表明原始结果可能因数据集特定调优与非标准化训练实践而被高估。
- 不同人格特质与非语言行为的关系各异——某些特质更依赖视觉线索预测,某些依赖音频线索,某些则需特定的时间建模尺度。
- 静态深度学习模型(如 ResNet)常优于时空模型(如 3D CNNs、LSTMs),表明在此背景下,时间建模并不总能提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。