Skip to main content
QUICK REVIEW

[论文解读] FiLM: Visual Reasoning with a General Conditioning Layer

Ethan Perez, Florian Strub|arXiv (Cornell University)|Sep 22, 2017
Multimodal Machine Learning Applications参考文献 27被引用 184
一句话总结

FiLM 引入逐特征线性调制,基于文本问题来引导 CNN,从而在 CLEVR 上实现最先进的视觉推理,并具有强健的泛化能力,包括零样本情景。

ABSTRACT

We introduce a general-purpose conditioning method for neural networks called FiLM: Feature-wise Linear Modulation. FiLM layers influence neural network computation via a simple, feature-wise affine transformation based on conditioning information. We show that FiLM layers are highly effective for visual reasoning - answering image-related questions which require a multi-step, high-level process - a task which has proven difficult for standard deep learning methods that do not explicitly model reasoning. Specifically, we show on visual reasoning tasks that FiLM layers 1) halve state-of-the-art error for the CLEVR benchmark, 2) modulate features in a coherent manner, 3) are robust to ablations and architectural modifications, and 4) generalize well to challenging, new data from few examples or even zero-shot.

研究动机与目标

  • 为视觉推理的神经网络提供一种通用的条件化机制的动机。
  • 提出 FiLM 层,应用依赖输入(如问题)的逐特征仿射变换。
  • 展示 FiLM 在多种视觉推理任务中的有效性,并分析其学习动力学和鲁棒性。

提出的方法

  • 将 FiLM 定义为 FiLM(F_i,c | gamma_i,c, beta_i,c) = gamma_i,c * F_i,c + beta_i,c,其中 gamma 和 beta 由条件输入通过 FiLM 生成器产生。
  • 使用一个问题处理的 GRU 为基于CNN的视觉流水线中的每个残差块产生 FiLM 参数。
  • 通过带 FiLM 的 ResBlock 处理图像,具有 128 个特征图和 14x14 的空间分辨率,可选地使用预训练的特征提取器。
  • 连接两个坐标特征图以帮助空间推理,并用 Adam 端到端训练,不使用数据增强。
  • 证明 FiLM 可以在原始像素输入和学习到的图像特征上工作,并分析 gamma 与 beta 在条件化中的作用。

实验结果

研究问题

  • RQ1通用的逐特征仿射条件化机制是否能够实现有效的多步视觉推理?
  • RQ2FiLM 参数(gamma, beta)如何随着网络层的不同推理任务(低级与高级)相关?
  • RQ3FiLM 对架构消融和数据情景(少样本、零样本)的鲁棒性如何?
  • RQ4FiLM 对人类提出的问题以及组成性泛化情景的泛化能力如何?
  • RQ5条件化放置相对于归一化层的影响是什么?

主要发现

  • FiLM 在 CLEVR 上达到最先进的准确度,与未使用显式推理的先前方法相比显著降低误差。
  • FiLM 学会选择性地上调、下调或关闭特征图,从而实现连贯且空间定位的推理。
  • FiLM 对消融和架构变更具有鲁棒性,能够在有限数据下有效学习,并泛化到更复杂或不同的数据。
  • FiLM 对 CLEVR-Humans 泛化良好,并且通过微调,在人类提出的问题上相对于先前方法获得显著提升。
  • FiLM 的零-shot 泛化方法在一组类似 CoGenT 的任务子集上将准确率提高约 3.2 个百分点,表明具备组成性控制。
  • FiLM 在各层条件化的多样性表明一种基于功能的模块化正在出现,而无需显式的架构先验。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。