Skip to main content
QUICK REVIEW

[论文解读] Investigating Audio, Visual, and Text Fusion Methods for End-to-End Automatic Personality Prediction

Onno P. Kampman, Elham J. Barezi|arXiv (Cornell University)|May 2, 2018
Computational and Text Analysis Methods被引用 25
一句话总结

本文提出一种三模态深度学习架构,通过端到端训练融合音频、视频和文本输入,以预测大五人格特质。通过为每种模态使用堆叠卷积神经网络(CNN),并在融合网络中进行完整的反向传播,该模型相比表现最佳的单模态(视频)实现了9.4%的性能提升,表明模态之间的复杂非线性交互显著增强了人格预测性能。

ABSTRACT

We propose a tri-modal architecture to predict Big Five personality trait scores from video clips with different channels for audio, text, and video data. For each channel, stacked Convolutional Neural Networks are employed. The channels are fused both on decision-level and by concatenating their respective fully connected layers. It is shown that a multimodal fusion approach outperforms each single modality channel, with an improvement of 9.4\% over the best individual modality (video). Full backpropagation is also shown to be better than a linear combination of modalities, meaning complex interactions between modalities can be leveraged to build better models. Furthermore, we can see the prediction relevance of each modality for each trait. The described model can be used to increase the emotional intelligence of virtual agents.

研究动机与目标

  • 研究使用音频、视频和文本进行端到端自动人格预测时,多模态融合的有效性。
  • 比较不同融合策略(决策级融合、特征拼接、完整反向传播)在人格特质预测性能上的表现。
  • 分析每种模态(音频、文本、视频)对个体大五人格特质预测的贡献。
  • 评估使用原始输入的端到端训练是否优于传统特征工程在人格识别中的表现。
  • 理解模态之间非线性交互如何超越线性组合提升预测性能。

提出的方法

  • 模型使用三个独立的堆叠卷积神经网络(CNN)分支分别处理音频、文本和视频输入,每种模态均处理原始或嵌入表示,无需手工设计特征。
  • 音频输入为8 kHz采样的原始波形,在训练期间随机调整振幅以减少音量偏差;双通道输入包含原始振幅和平方振幅以捕捉能量信息。
  • 文本输入使用来自Google新闻的预训练300维word2vec嵌入,通过CNN提取语言模式。
  • 视频输入通过CNN提取面部和视觉线索,对每个卷积层输出应用全局平均池化。
  • 通过拼接最终全连接层输出实现融合,完整的反向传播使所有模态的端到端优化成为可能。
  • 模型通过端到端训练预测五个个性分数(外向性、宜人性、尽责性、神经质、开放性),输出范围为[0,1],使用Sigmoid输出层。

实验结果

研究问题

  • RQ1音频、视觉和文本模态在大五人格特质预测中的个体贡献如何?
  • RQ2与单模态模型相比,多模态融合是否显著提升了人格预测准确率?
  • RQ3哪种融合策略——决策级融合、特征拼接或完整反向传播——表现最佳?
  • RQ4模态之间复杂的非线性交互在多大程度上提升了预测性能,超越线性组合?
  • RQ5哪些人格特质最易从哪些模态中预测?时间上下文如何影响性能?

主要发现

  • 完整反向传播融合方法的均方误差为0.0938,相比最佳单模态(视频)的0.1034 MSE,性能提升了9.4%。
  • 完整反向传播优于决策级融合和线性特征拼接,表明模态之间非平凡的、可学习的交互对性能至关重要。
  • 神经质和外向性是最容易预测的特质,而宜人性在所有融合方法中最具挑战性。
  • 文本模态对预测贡献最小,除宜人性和尽责性外,表明大多数特质的言语信号有限。
  • 视频(外貌)比音频(语调和音色)略具信息量,表明视觉线索在人格感知中起更强作用。
  • 尽管使用原始输入和端到端训练,该模型性能与ChaLearn 2016挑战赛中的顶尖方法(包括DCC和evolgen)相当。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。