QUICK REVIEW

[论文解读] Learning to Extract Motion from Videos in Convolutional Neural Networks

Damien Teney, Martial Hebert|arXiv (Cornell University)|Jan 27, 2016

Advanced Vision and Imaging参考文献 24被引用 27

一句话总结

本文提出一种卷积神经网络（CNN），通过信号处理原理直接从视频帧中学习提取密集光流，利用权重重用实现严格的旋转不变性，从而减少参数量并实现在极小数据量上的端到端训练。该模型生成一种分布式运动表征，能够捕捉多重、重叠或透明的运动——在Middlebury基准测试中表现优于传统方法，同时为视频理解任务提供可训练、即插即用的构建模块。

ABSTRACT

This paper shows how to extract dense optical flow from videos with a convolutional neural network (CNN). The proposed model constitutes a potential building block for deeper architectures to allow using motion without resorting to an external algorithm, \eg for recognition in videos. We derive our network architecture from signal processing principles to provide desired invariances to image contrast, phase and texture. We constrain weights within the network to enforce strict rotation invariance and substantially reduce the number of parameters to learn. We demonstrate end-to-end training on only 8 sequences of the Middlebury dataset, orders of magnitude less than competing CNN-based motion estimation methods, and obtain comparable performance to classical methods on the Middlebury benchmark. Importantly, our method outputs a distributed representation of motion that allows representing multiple, transparent motions, and dynamic textures. Our contributions on network design and rotation invariance offer insights nonspecific to motion estimation.

研究动机与目标

开发一种CNN，直接从原始视频像素中学习密集光流，避免依赖外部光流算法。
仅使用少量训练序列，实现深度网络中运动估计的端到端训练。
基于信号处理原理设计网络架构，确保对图像对比度、相位和纹理的不变性。
生成一种分布式运动表征，能够建模动态纹理和透明运动等复杂现象。
证明旋转不变权重重用可减少参数量，并提升在小数据集上的泛化能力。

提出的方法

网络基于信号处理原理推导，特别是通过分析时空频率成分，设计能够提取运动线索的卷积、池化和非线性操作。
通过约束滤波器权重在不同旋转方向间共享，强制实现旋转不变性，显著减少可学习参数量。
第一层使用定向滤波器检测图像中的平移模式，构成运动能量计算的基础。
网络的倒数第二层输出高维特征图，其中每个空间位置编码了多种方向和速度下的运动证据。
最后一层解码层将分布式表征投影为标准光流图，用于在标准基准上进行训练和评估。
模型通过Middlebury数据集的真实光流标签进行端到端训练，由于固有的旋转不变性，无需数据增强。

实验结果

研究问题

RQ1能否仅使用少量训练序列，端到端训练CNN从原始视频帧中提取密集光流？
RQ2如何利用信号处理原理设计一种CNN，使其对图像对比度、相位和纹理保持不变，同时对运动保持敏感？
RQ3权重重用在CNN中能在多大程度上实现严格的旋转不变性？这对泛化能力和参数效率有何影响？
RQ4CNN中的分布式运动表征能否捕捉传统光流无法建模的复杂运动现象（如动态纹理和透明运动）？
RQ5该端到端学习的运动提取器在Middlebury和Sintel等标准基准上的性能与经典光流算法相比如何？

主要发现

所提出的CNN在仅使用8个训练序列的情况下，于Middlebury基准测试中达到与经典光流方法相当的性能。
采用旋转不变权重重用显著减少了参数量，并使在小数据集上有效训练成为可能，无需数据增强。
倒数第二层中的分布式运动表征成功捕捉了单个像素处的多个运动分量，实现了对透明和重叠运动的建模。
在具有动态纹理的场景（如水波、蒸汽）中，网络产生的运动估计比传统方法更稳定、更一致，后者在亮度恒定性被违反时会失效。
在透明运动场景中，该模型优于标准光流方法，径向可视化运动证据显示单点处存在多模态分布。
在Sintel基准上，该方法性能劣于最先进技术，证实了在复杂场景中实现高精度光流估计仍需场景级推理和长程匹配能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。