[论文解读] Modulating early visual processing by language
本论文引入 Conditional Batch Normalization (CBN),通过语言对整个预训练的 ResNet 进行调制,形成 MODERN,从而通过在语言输入条件下对视觉处理进行 conditioning,改善 VQA 性能,包括早期阶段。
It is commonly assumed that language refers to high-level visual concepts while leaving low-level visual processing unaffected. This view dominates the current literature in computational models for language-vision tasks, where visual and linguistic input are mostly processed independently before being fused into a single representation. In this paper, we deviate from this classic pipeline and propose to modulate the \emph{entire visual processing} by linguistic input. Specifically, we condition the batch normalization parameters of a pretrained residual network (ResNet) on a language embedding. This approach, which we call MOdulated RESnet (\MRN), significantly improves strong baselines on two visual question answering tasks. Our ablation study shows that modulating from the early stages of the visual processing is beneficial.
研究动机与目标
- 动机与测试语言是否能影响早期视觉处理,而不仅仅是高层次的视觉概念。
- 提出一种轻量、可扩展的机制(CBN),使用语言嵌入来调制卷积特征图。
- 通过将语言条件应用于预训练 CNN 的多个阶段,在 VQA 任务上展示优于强基线的改进。
提出的方法
- 引入 Conditional Batch Normalization (CBN),其从语言嵌入预测 BN 参数的变化。
- 冻结预训练 CNN 权重,通过一个小型多层感知器(MLP)根据问题嵌入来学习增量 delta beta、Delta gamma。
- 在 ResNet 的所有残差块中应用 CBN,从而形成 MODERN 架构。
- 在 VQAv1 和 GuessWhat?! 上,结合注意力机制的和基线 VQA 模型,对 MODERN 进行评估。
- 与强基线(Baseline、Ft Stage 4、Ft BN)及其他融合方法(MLB、MUTAN、MCB)进行对比。
- 结果显示对早期阶段的调制带来超越仅微调 BN 或最后几个块的收益。
实验结果
研究问题
- RQ1将整个视觉处理流水线条件化为语言是否比传统的双流管线在 VQA 上表现更好?
- RQ2语言对早期 CNN 层的调制是否比仅条件化后期层或 BN 参数更有益?
- RQ3MODERN 与 VQA 数据集上的最先进融合方法相比如何?
- RQ4对 ResNet 不同阶段子集应用 CBN 的影响是什么?
- RQ5语言条件的归一化是否能够提升在超越 VQA 的视觉定位任务中的表现(如 GuessWhat?!)
主要发现
| 图片大小 | 方法 | 是/否 | 数字 | 其他 | 总体 |
|---|---|---|---|---|---|
| 224x224 | Baseline | 79.45% | 36.63% | 44.62% | 58.05% |
| 224x224 | Ft Stage 4 | 78.37% | 34.27% | 43.72% | 56.91% |
| 224x224 | Ft BN | 80.18% | 35.98% | 46.07% | 58.98% |
| 224x224 | MODERN | 81.17% | 37.79% | 48.66% | 60.82% |
| 448x448 | MLB [14] with ResNet-50 | 80.20% | 37.73% | 49.53% | 60.84% |
| 448x448 | MLB [14] with ResNet-152 | 80.95% | 38.39% | 50.59% | 61.73% |
| 448x448 | MUTAN + MLB [2] | 82.29% | 37.27% | 48.23% | 61.02% |
| 448x448 | MCB + Attention [9] with ResNet-50 | 60.46% | 38.29% | 48.68% | 60.46% |
| 448x448 | MCB + Attention [9] with ResNet-152 | - | - | - | 62.50% |
| 448x448 | MODERN | 81.38% | 36.06% | 51.64% | 62.16% |
| 448x448 | MODERN + MLB [14] | 82.17% | 38.06% | 52.29% | 63.01% |
- MODERN 将基线 VQA 准确率从 58.05% 提升到 60.82%,输入为 224x224。
- 仅微调 BN 参数的改进较小(58.98%),而仅微调最后一个阶段效果较差(56.91%)。
- 对语言进行 BN 条件化(MODERN)相对于基线有显著提升,并在较大输入分辨率下达到具有竞争力的结果。
- 在 448x448 输入下,MODERN 达到 62.16%(MODERN)和 63.01%(MODERN + MLB),接近或超越若干强基线。
- 在 GuessWhat?! Oracle 上,MODERN 将测试错误率降至 25.06%(相比原始特征的 29.92%),在使用空间/类别信息时获得更大提升。
- 消融研究表明对所有阶段进行调制能获得最佳性能,限制在后期阶段时回报递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。