[论文解读] BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection
BLOCK 引入一个用于多模态交互的块-项张量融合(BLOCK),在 VQA 与 VRD 上实现了具有竞争力的最先进结果,同时使用的参数比许多竞争对手更少。
Multimodal representation learning is gaining more and more interest within the deep learning community. While bilinear models provide an interesting framework to find subtle combination of modalities, their number of parameters grows quadratically with the input dimensions, making their practical implementation within classical deep learning pipelines challenging. In this paper, we introduce BLOCK, a new multimodal fusion based on the block-superdiagonal tensor decomposition. It leverages the notion of block-term ranks, which generalizes both concepts of rank and mode ranks for tensors, already used for multimodal fusion. It allows to define new ways for optimizing the tradeoff between the expressiveness and complexity of the fusion model, and is able to represent very fine interactions between modalities while maintaining powerful mono-modal representations. We demonstrate the practical interest of our fusion model by using BLOCK for two challenging tasks: Visual Question Answering (VQA) and Visual Relationship Detection (VRD), where we design end-to-end learnable architectures for representing relevant interactions between modalities. Through extensive experiments, we show that BLOCK compares favorably with respect to state-of-the-art multimodal fusion models for both VQA and VRD tasks. Our code is available at https://github.com/Cadene/block.bootstrap.pytorch.
研究动机与目标
- 动机并解决 VQA 与 VRD 的双线性多模态融合中的参数爆炸问题。
- 提出 BLOCK,一种基于块项张量分解的融合,以在表达能力和参数效率之间取得平衡。
- 在 VQA 2.0、TDIUC 与 VRD 数据集上验证 BLOCK 的有效性。
- 提供对最新融合方法的广泛经验比较。
提出的方法
- 使用三阶交互张量的块项分解来定义一个双线性融合模型。
- 将张量分解为带有因子 A_r、B_r、C_r 的 R 个块,以及一个块超对角核 D_r。
- 通过单模态投影对输入进行投影以得到 R 规模的 ϕ1 和 M 规模的 ϕ2,然后通过块进行融合以产生 y。
- 约束每个块的三模切片的秩以控制复杂度。
- 将 BLOCK 嵌入用于 VQA 和 VRD 的端到端架构中,并使用标准的随机优化方法进行优化。
- 在标准基准上将 BLOCK 与 CP、Tucker、MFB、MUTAN、MFH 等方法进行比较。
实验结果
研究问题
- RQ1相较于现有的双线性融合方法,BLOCK 的块项分解是否能在表达能力与参数数量之间提供更优的权衡?
- RQ2在不同参数规模下,BLOCK 在 VQA 和 VRD 任务上的表现相对于最先进的融合方法如何?
- RQ3块数 R 及块大小对性能和模型规模的影响是什么?
- RQ4BLOCK 是否在实现丰富跨模态交互的同时,保持强的单模态表示能力?
主要发现
- 在报道的比较中,BLOCK 在 VQA2 的 test-dev 上实现了多种融合方案中的最佳结果。
- BLOCK 的融合参数大约为 18M,在关键指标上超越了许多参数更高的方法。
- 在 TDIUC 上,BLOCK 超越了先前的方法,在偏置鲁棒性和谐性指标(A-NMPT、H-NMPT)方面有显著提升。
- 在 VRD 上,BLOCK 在谓词、短语和关系的 Recall@K 上,在许多设置下优于以前的方法且无需外部数据。
- BLOCK 在建模能力与参数数量之间提供了有利的权衡,通常以显著更少的参数超越了参数更高的融合模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。