QUICK REVIEW

[论文解读] End2You -- The Imperial Toolkit for Multimodal Profiling by End-to-End Learning

Panagiotis Tzirakis, Stefanos Zafeiriou|arXiv (Cornell University)|Feb 4, 2018

Music and Audio Processing参考文献 8被引用 21

一句话总结

End2You 是由帝国理工学院开发的一款开源端到端深度学习工具包，用于使用原始感官输入（音频、视频、生理信号或其组合）进行多模态分析，无需手工设计特征。它在 RECOLA 数据集上实现了具有竞争力的性能，在情感识别任务中与最先进方法相当，尽管仅依赖于从原始数据中自学习的表征。

ABSTRACT

We introduce End2You -- the Imperial College London toolkit for multimodal profiling by end-to-end deep learning. End2You is an open-source toolkit implemented in Python and is based on Tensorflow. It provides capabilities to train and evaluate models in an end-to-end manner, i.e., using raw input. It supports input from raw audio, visual, physiological or other types of information or combination of those, and the output can be of an arbitrary representation, for either classification or regression tasks. To our knowledge, this is the first toolkit that provides generic end-to-end learning for profiling capabilities in either unimodal or multimodal cases. To test our toolkit, we utilise the RECOLA database as was used in the AVEC 2016 challenge. Experimental results indicate that End2You can provide comparable results to state-of-the-art methods despite no need of expert-alike feature representations, but self-learning these from the data "end to end".

研究动机与目标

开发一种通用的开源工具包，用于端到端的多模态分析，消除对手工设计特征工程的需求。
支持在原始输入模态（音频、视频、生理信号或其组合）上进行深度学习模型的训练与评估。
支持任意输出维度和时间结构的分类与回归任务。
通过模块化架构，提供灵活的框架以组合单模态与多模态模型。
证明仅使用原始感官数据进行端到端学习在情感计算任务中的可行性。

提出的方法

该工具包使用 Python 实现，基于 TensorFlow，支持命令行和 API 接口。
原始输入数据被转换为 .tfrecord 格式，以实现高效的数据加载与训练。
单模态模型包括：用于音频的 2 层卷积神经网络（40 个滤波器，卷积核大小分别为 20 和 40），用于视频的 50 层残差网络（ResNet），以及用于序列建模的循环神经网络（GRU 或 LSTM）。
全连接网络（FCN）和 RNN 用于处理特征或原始输入，支持灵活的模型堆叠。
通过拼接单模态模型的输出，并将其输入共享的 RNN 或 FCN 主干网络，实现多模态融合。
系统支持使用组内相关系数（CCC）作为损失函数和评估指标的端到端训练。

实验结果

研究问题

RQ1在无需手工特征的情况下，仅使用原始感官输入的端到端深度学习能否在多模态情感分析中实现具有竞争力的性能？
RQ2与依赖于人工设计特征（如 HRV 和 EDA 指标）的最先进系统相比，端到端模型的性能如何？
RQ3模块化开源工具包在多模态情感计算中，能在多大程度上支持多样化的单模态与多模态配置？
RQ4原始生理信号（ECG、EDA）能否在端到端模型中被有效利用以实现连续情绪预测？
RQ5在端到端学习中，音频、视频与生理模态的融合在维度化情绪识别任务中有多高效？

主要发现

在音频模态中，End2You 在 RECOLA 测试集上于唤醒度（arousal）上达到 CCC 0.669，于效价（valence）上达到 CCC 0.286，优于基线模型（0.648 和 0.375）。
在视频模态中，End2You 在唤醒度上达到 CCC 0.358，于效价上达到 CCC 0.561，超过基线（0.272 和 0.507），并接近冠军模型表现。
在生理（ECG）模态中，End2You 在唤醒度上达到 CCC 0.154，于效价上达到 CCC 0.052，略低于基线，但证明了使用原始信号的可行性。
多模态模型在唤醒度上达到 CCC 0.672，于效价上达到 CCC 0.521，与基线（0.683 和 0.639）接近，但尚未达到挑战赛冠军水平（0.770 和 0.687）。
与冠军模型的性能差距归因于使用了手工设计的生理特征（如 HRV），其提供的判别信息多于原始 ECG 和 EDA 信号。
音频和视频的预训练单模态模型已公开发布，支持迁移学习与新数据集的快速原型开发。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。