QUICK REVIEW

[论文解读] Gated Multimodal Units for Information Fusion

John Arévalo, Thamar Solorio|arXiv (Cornell University)|Feb 7, 2017

Explainable Artificial Intelligence (XAI)被引用 51

一句话总结

论文引入了 Gated Multimodal Unit (GMU)，一种在神经网络内融合多模态信息的可微分门控机制，并在使用情节和海报进行的多模态电影类型分类任务中展示了其有效性，超过了若干融合基线。

ABSTRACT

This paper presents a novel model for multimodal learning based on gated neural networks. The Gated Multimodal Unit (GMU) model is intended to be used as an internal unit in a neural network architecture whose purpose is to find an intermediate representation based on a combination of data from different modalities. The GMU learns to decide how modalities influence the activation of the unit using multiplicative gates. It was evaluated on a multilabel scenario for genre classification of movies using the plot and the poster. The GMU improved the macro f-score performance of single-modality approaches and outperformed other fusion strategies, including mixture of experts models. Along with this work, the MM-IMDb dataset is released which, to the best of our knowledge, is the largest publicly available multimodal dataset for genre prediction on movies.

研究动机与目标

推动多模态表征学习并展示简单融合策略的局限性。
提出一个可训练的 GMU 模块，学习用于中间表示的模态特定门控激活。
在使用情节和海报数据的多标签电影类型分类任务中证明 GMU 的有效性。
发布 MM-IMDb 数据集，以支持在类型预测方面的多模态研究。

提出的方法

引入 GMU：h_v = tanh(W_v x_v)，h_t = tanh(W_t x_t)，z = sigmoid(W_z [x_v, x_t])，h = z * h_v + (1 - z) * h_t；可扩展到更多模态。
文本表示可通过 n-gram、Word2Vec（预训练的 Google 嵌入）或 RNN 变体；视觉表示可通过 VGG 特征（迁移学习）或端到端 CNNs。
在融合表示上训练带有 maxout 激活的多层前馈神经网络；使用批量归一化、 dropout 和 ADAM 优化。
在 MM-IMDb 数据集的多标签电影类型分类场景中评估 GMU；与平均融合、拼接、线性求和以及专家混合（Mixture-of-Experts, MoE）等基线进行对比。
发布并使用 MM-IMDb 多模态数据集（情节、海报、类型及 50 项额外元数据）进行实验。

实验结果

研究问题

RQ1GMU 能否学习输入相关的门控激活，以对中间表示中的模态进行加权？
RQ2GMU 是否在多模态分类任务中优于标准融合策略（早期/晚期融合）和 MoE？
RQ3在真实世界的多标签多模态数据集（MM-IMDb）上的电影类型预测中，GMU 的表现如何？
RQ4使用 GMU 时，各类型中文本模态与视觉模态的贡献平衡如何？

主要发现

GMU 在多标签电影类型任务中提升了相对于单模态基线的宏观 F 分数。
GMU 在 MM-IMDb 数据集上优于其他融合策略，包括简单拼接、平均融合、线性求和和 MoE 变体。
在类型级分析中，GMU 对许多类型产生更高的宏观 F 分数，总体在 23 个类型中的 16 个上相对于单模态提升了多模态性能。
对门控激活的分析显示，该模型通常偏向文本信息，某些类型（如动画、家庭）的视觉影响更强。
MM-IMDb 数据集（含情节、海报和元数据的 25,959 部电影）已向社区发布，以促进进一步的多模态研究。
合成实验表明，GMU 学习的潜在变量对应于对给定样本有信息量的模态（门控激活与模态有用性之间的相关性）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。