QUICK REVIEW

[论文解读] FiLM: Visual Reasoning with a General Conditioning Layer

Ethan Perez, Florian Strub|arXiv (Cornell University)|Sep 22, 2017

Multimodal Machine Learning Applications参考文献 27被引用 184

一句话总结

FiLM 引入逐特征线性调制，基于文本问题来引导 CNN，从而在 CLEVR 上实现最先进的视觉推理，并具有强健的泛化能力，包括零样本情景。

ABSTRACT

We introduce a general-purpose conditioning method for neural networks called FiLM: Feature-wise Linear Modulation. FiLM layers influence neural network computation via a simple, feature-wise affine transformation based on conditioning information. We show that FiLM layers are highly effective for visual reasoning - answering image-related questions which require a multi-step, high-level process - a task which has proven difficult for standard deep learning methods that do not explicitly model reasoning. Specifically, we show on visual reasoning tasks that FiLM layers 1) halve state-of-the-art error for the CLEVR benchmark, 2) modulate features in a coherent manner, 3) are robust to ablations and architectural modifications, and 4) generalize well to challenging, new data from few examples or even zero-shot.

研究动机与目标

为视觉推理的神经网络提供一种通用的条件化机制的动机。
提出 FiLM 层，应用依赖输入（如问题）的逐特征仿射变换。
展示 FiLM 在多种视觉推理任务中的有效性，并分析其学习动力学和鲁棒性。

提出的方法

将 FiLM 定义为 FiLM(F_i,c | gamma_i,c, beta_i,c) = gamma_i,c * F_i,c + beta_i,c，其中 gamma 和 beta 由条件输入通过 FiLM 生成器产生。
使用一个问题处理的 GRU 为基于CNN的视觉流水线中的每个残差块产生 FiLM 参数。
通过带 FiLM 的 ResBlock 处理图像，具有 128 个特征图和 14x14 的空间分辨率，可选地使用预训练的特征提取器。
连接两个坐标特征图以帮助空间推理，并用 Adam 端到端训练，不使用数据增强。
证明 FiLM 可以在原始像素输入和学习到的图像特征上工作，并分析 gamma 与 beta 在条件化中的作用。

实验结果

研究问题

RQ1通用的逐特征仿射条件化机制是否能够实现有效的多步视觉推理？
RQ2FiLM 参数（gamma, beta）如何随着网络层的不同推理任务（低级与高级）相关？
RQ3FiLM 对架构消融和数据情景（少样本、零样本）的鲁棒性如何？
RQ4FiLM 对人类提出的问题以及组成性泛化情景的泛化能力如何？
RQ5条件化放置相对于归一化层的影响是什么？

主要发现

FiLM 在 CLEVR 上达到最先进的准确度，与未使用显式推理的先前方法相比显著降低误差。
FiLM 学会选择性地上调、下调或关闭特征图，从而实现连贯且空间定位的推理。
FiLM 对消融和架构变更具有鲁棒性，能够在有限数据下有效学习，并泛化到更复杂或不同的数据。
FiLM 对 CLEVR-Humans 泛化良好，并且通过微调，在人类提出的问题上相对于先前方法获得显著提升。
FiLM 的零-shot 泛化方法在一组类似 CoGenT 的任务子集上将准确率提高约 3.2 个百分点，表明具备组成性控制。
FiLM 在各层条件化的多样性表明一种基于功能的模块化正在出现，而无需显式的架构先验。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。