[论文解读] Efficient Low-rank Multimodal Fusion with Modality-Specific Factors
本文提出低秩多模态融合(LMF)方法,使用模态特定的低秩因子高效融合多种模态,在模态数量线性扩展的同时实现具有竞争力的结果,并相比基于张量的融合如TFN显著减少参数和计算量。
Multimodal research is an emerging field of artificial intelligence, and one of the main research problems in this field is multimodal fusion. The fusion of multimodal data is the process of integrating multiple unimodal representations into one compact multimodal representation. Previous research in this field has exploited the expressiveness of tensors for multimodal representation. However, these methods often suffer from exponential increase in dimensions and in computational complexity introduced by transformation of input into tensor. In this paper, we propose the Low-rank Multimodal Fusion method, which performs multimodal fusion using low-rank tensors to improve efficiency. We evaluate our model on three different tasks: multimodal sentiment analysis, speaker trait analysis, and emotion recognition. Our model achieves competitive results on all these tasks while drastically reducing computational complexity. Additional experiments also show that our model can perform robustly for a wide range of low-rank settings, and is indeed much more efficient in both training and inference compared to other methods that utilize tensor representations.
研究动机与目标
- 动机与解决在使用全张量表示时多模态融合的可扩展性问题。
- 提出一种低秩、模态特异的因子分解,以实现模态数量的线性扩展。
- 表明 LMF 在情感、说话者性格特征与情感识别方面具有竞争力的表现,同时减少参数和计算量。
提出的方法
- 将多模态融合表述为多线性函数,并指出全张量融合的指数级代价。
- 将权重张量分解为模态特定的低秩因子,并推导出一种避免形成完整输入张量的高效计算。
- 推导出一个高效的融合方程,利用 r 个秩特定因子和逐元素乘积直接从单模态表示计算 h,将复杂度降至 O(d_y * r * sum(d_m))。
- 通过将因子拼接成 M 阶三阶张量并进行基于 Lambda 的组合来提供略微不同的实现形式以实现实际计算。
实验结果
研究问题
- RQ1低秩、模态特异的融合在多模态任务中的性能与全张量融合(TFN)相比如何?
- RQ2LMF 能否在模态数量线性扩展的同时保持具有竞争力的准确性和回归指标?
- RQ3不同秩设置对性能和稳定性的影响是什么?
- RQ4在参数量和速度方面,LMF 与最先进的多模态融合方法相比如何?
主要发现
- LMF 在所评估数据集上的任务显著优于 TFN,突显了低秩融合的优势。
- LMF 在情感(MOSI)、情绪(IEMOCAP)和说话者性格特征(POM)识别方面达到接近最先进水平的结果。
- 理论与实证分析表明 LMF 与模态数量线性扩展,并减少参数量(在三模态设置下大约比 TFN 少 11 倍参数)。
- 相较于 TFN,LMF 提供更快的训练和测试速度(在所报道的设置中的训练和测试 IPS)。
- 秩设置:Very low 秩就足以实现胜任的性能,而在某些情况下更高的秩会导致不稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。