[论文解读] MERBench: A Unified Evaluation Benchmark for Multimodal Emotion Recognition
MERBench 提供一个统一的多模态情感识别评估基准,并引入 MER2023,这是一个中文情感数据集,旨在在方法之间实现公平比较和鲁棒性分析。
Multimodal emotion recognition plays a crucial role in enhancing user experience in human-computer interaction. Over the past few decades, researchers have proposed a series of algorithms and achieved impressive progress. Although each method shows its superior performance, different methods lack a fair comparison due to inconsistencies in feature extractors, evaluation manners, and experimental settings. These inconsistencies severely hinder the development of this field. Therefore, we build MERBench, a unified evaluation benchmark for multimodal emotion recognition. We aim to reveal the contribution of some important techniques employed in previous works, such as feature selection, multimodal fusion, robustness analysis, fine-tuning, pre-training, etc. We hope this benchmark can provide clear and comprehensive guidance for follow-up researchers. Based on the evaluation results of MERBench, we further point out some promising research directions. Additionally, we introduce a new emotion dataset MER2023, focusing on the Chinese language environment. This dataset can serve as a benchmark dataset for research on multi-label learning, noise robustness, and semi-supervised learning. We encourage the follow-up researchers to evaluate their algorithms under the same experimental setup as MERBench for fair comparisons. Our code is available at: https://github.com/zeroQiaoba/MERTools.
研究动机与目标
- 提供一个统一的、在数据集、特征和融合策略之间公平的多模态情感识别评估框架。
- 在一致的实验设置下复现并比较多种方法,以揭示特征、融合、预训练和微调的影响。
- 引入 MER2023 作为一个支持多标签学习、噪声鲁棒性和半监督学习基准的中文情感数据集。
- 基于评估结果指引未来研究方向,并推动开放、可复现的实验。
提出的方法
- 在统一的 MERBench 设置下复现具有代表性的单模态和多模态情感识别方法。
- 在声学、词汇、视觉模态上评估特征,以评估它们对性能的贡献。
- 结合模态重要性权重进行多模态融合并进行端到端训练,以实现离散情感与情绪价预测。
- 使用将交叉熵用于情感分类与均方误差(MSE)用于情感价回归的联合损失。
- 引入 MER2023,包含四个子集(Train&Val、MER-MULTI、MER-NOISE、MER-SEMI),并设计采样、注释与划分流程。
- 提供一个开源工具链(MERTools),以实现可重复基准评测。
实验结果
研究问题
- RQ1如何在统一设置下为不同多模态情感数据集选择合适的特征?
- RQ2哪些多模态融合策略在利用跨模态的互补线索方面表现最好?
- RQ3在标准化评测下跨语料的性能如何表现,如何提高鲁棒性?
- RQ4特征提取器的预训练与微调对下游情感识别性能有何影响?
- RQ5如何在中文情感数据集中有效研究多标签、噪声鲁棒性和半监督学习?
主要发现
- MERBench 通过在共享的实验框架下复现方法实现了公平、全面的比较。
- MER2023 提供结构化子集,用于在中文情感识别中探索多标签关系、噪声鲁棒性和半监督学习。
- 具有学习模态重要性的多模态融合在各数据集和设置中相较单模态基线提升性能。
- 基准强调特征选择与预训练/微调对跨语料和鲁棒性性能的影响。
- 作者提供开源代码,以促进在 MERBench 条件下的可重复评测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。