Skip to main content
QUICK REVIEW

[论文解读] Dynamic Filter Networks

Bert De Brabandere, Xu Jia|arXiv (Cornell University)|May 31, 2016
Advanced Vision and Imaging参考文献 16被引用 476
一句话总结

动态滤波网络根据输入数据生成滤波器,使样本特定和位置特定的滤波,适用于视频/立体预测等任务,并以紧凑模型达到最先进的性能。

ABSTRACT

In a traditional convolutional layer, the learned filters stay fixed after training. In contrast, we introduce a new framework, the Dynamic Filter Network, where filters are generated dynamically conditioned on an input. We show that this architecture is a powerful one, with increased flexibility thanks to its adaptive nature, yet without an excessive increase in the number of model parameters. A wide variety of filtering operations can be learned this way, including local spatial transformations, but also others like selective (de)blurring or adaptive feature extraction. Moreover, multiple such layers can be combined, e.g. in a recurrent architecture. We demonstrate the effectiveness of the dynamic filter network on the tasks of video and stereo prediction, and reach state-of-the-art performance on the moving MNIST dataset with a much smaller model. By visualizing the learned filters, we illustrate that the network has picked up flow information by only looking at unlabelled training data. This suggests that the network can be used to pretrain networks for various supervised tasks in an unsupervised way, like optical flow and depth estimation.

研究动机与目标

  • 促使学习样本特定变换以应对多样的运动模式和形变。
  • 提出一个配对的滤波生成网络与动态滤波层,以应用样本特定的滤波。
  • 探索动态卷积和动态局部滤波作为灵活、可微分的操作。
  • 在视频预测和立体预测上展示有效性。
  • 说明对流/深度相关表示的无监督预训练潜力。

提出的方法

  • 引入一个两部件的动态滤波模块:一个滤波生成网络和一个动态滤波层。
  • Dynamic convolution: 以在输入上均匀应用生成的滤波器。
  • Dynamic local filtering: 在每个位置应用位置特异的生成滤波器。
  • 允许滤波器无约束或通过软最大等方式软约束,以鼓励稀疏/无噪声的滤波器。
  • 可选地添加一个动态逐像素偏置。
  • 端到端通过反向传播训练;可视化学习到的滤波以解释运动/流。

实验结果

研究问题

  • RQ1动态生成的、基于输入条件的滤波器是否能在比固定卷积滤波器更高的灵活性方面有所提升?
  • RQ2动态卷积和动态局部滤波在视频预测和立体视图合成上的表现如何?
  • RQ3无监督学习的动态滤滤器是否编码运动/流信息,可以用于进一步任务的预训练?
  • RQ4与传统过滤架构相比,动态架构在参数效率方面有哪些优势?

主要发现

  • 在 Moving MNIST 上,DFN 以远少于 FC-LSTM (142,667,776) 与 Conv-LSTM (7,585,296) 的参数量,达到state-of-the-art 的性能(637,361)。
  • 网络学习到的动态滤波器捕捉运动模式,实现准确的逐帧预测并分离移动数字。
  • 动态局部滤波能够实现位置特异的变换,建模局部形变和光度变化。
  • 动态滤波器可被可视化为流-like 的映射,从无标签数据中无监督学习。
  • 在高速公路驾驶数据上的应用表明,模型能够预测结构化特征(车道、桥梁等),并展示出合理的泛化。
  • 在立体预测上,水平滤波器能实现深度流/视差,显示了用于深度估计的无监督预训练潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。