Skip to main content
QUICK REVIEW

[论文解读] MEMC-Net: Motion Estimation and Motion Compensation Driven Neural Network for Video Interpolation and Enhancement

Wenbo Bao, Wei‐Sheng Lai|arXiv (Cornell University)|Oct 20, 2018
Advanced Vision and Imaging参考文献 59被引用 32
一句话总结

本文提出MEMC-Net,一种深度神经网络,可联合学习用于视频帧插值与增强的运动估计和运动补偿。通过引入一个完全可微的自适应变形层,结合光流与插值核,该模型在插值、超分辨率、去噪和去块效应任务中均实现了最先进性能,同时提升了计算效率和视觉质量。

ABSTRACT

Motion estimation (ME) and motion compensation (MC) have been widely used for classical video frame interpolation systems over the past decades. Recently, a number of data-driven frame interpolation methods based on convolutional neural networks have been proposed. However, existing learning based methods typically estimate either flow or compensation kernels, thereby limiting performance on both computational efficiency and interpolation accuracy. In this work, we propose a motion estimation and compensation driven neural network for video frame interpolation. A novel adaptive warping layer is developed to integrate both optical flow and interpolation kernels to synthesize target frame pixels. This layer is fully differentiable such that both the flow and kernel estimation networks can be optimized jointly. The proposed model benefits from the advantages of motion estimation and compensation methods without using hand-crafted features. Compared to existing methods, our approach is computationally efficient and able to generate more visually appealing results. Furthermore, the proposed MEMC-Net can be seamlessly adapted to several video enhancement tasks, e.g., super-resolution, denoising, and deblocking. Extensive quantitative and qualitative evaluations demonstrate that the proposed method performs favorably against the state-of-the-art video frame interpolation and enhancement algorithms on a wide range of datasets.

研究动机与目标

  • 解决现有基于学习的视频帧插值方法的局限性,这些方法要么仅估计光流,要么仅估计补偿核,导致结果模糊或对大运动敏感。
  • 在端到端可训练的深度学习框架中整合运动估计与运动补偿,结合经典MEMC方法与数据驱动方法的优势。
  • 提出一种新颖的自适应变形层,融合光流与学习到的插值核,以合成高质量的中间帧。
  • 将所提出的架构扩展至多种视频增强任务,包括超分辨率、去噪和去块效应处理,证明其泛化能力。
  • 通过反向传播联合优化光流与核估计网络,提升视觉质量与计算效率。

提出的方法

  • 提出一个完全可微的自适应变形层,结合光流与学习到的插值核,以合成目标帧像素。
  • 使用反向传播端到端训练光流估计网络与核估计网络,实现运动估计与补偿的联合优化。
  • 估计遮挡掩码,以自适应地混合变形帧,减少运动不连续或数据缺失区域的伪影。
  • 应用后处理CNN,以细化由遮挡或运动模糊导致的孔洞与不可靠区域的像素。
  • 使用残差块与上下文聚合技术,增强特征表示,并在运动边界处保留精细细节。
  • 通过调整输入与损失函数,将相同架构适配至视频超分辨率、去噪与去块效应处理任务,同时保持核心网络结构不变。

实验结果

研究问题

  • RQ1统一的深度学习框架能否联合优化运动估计与运动补偿,以提升视频帧插值质量?
  • RQ2通过自适应变形层融合光流与学习到的插值核,对视觉保真度与计算效率有何影响?
  • RQ3基于MEMC-Net的架构在插值任务之外,能在多大程度上泛化至多种视频增强任务?
  • RQ4所提方法在基准数据集上的PSNR、SSIM与视觉质量指标上是否优于最先进方法?
  • RQ5遮挡感知融合与后处理模块在复杂运动区域减少伪影方面的有效性如何?

主要发现

  • MEMC-Net在视频帧插值任务中达到最先进性能,在Vimeo90k与DAVIS数据集上,其在定量指标与视觉质量方面均优于ToFlow、MIND与EpicFlow等方法。
  • 在BayesSR超分辨率数据集上,MEMC-Net_SR的PSNR高于EDSR(SISR)及其他视频超分辨率模型,尽管其使用的残差块更少、滤波器更少。
  • 在视频去噪任务中,MEMC-Net_DN在Vimeo90k与V-BM4D数据集上分别较次优方法提升1.24 dB与1.95 dB的PSNR。
  • 在视频去块效应任务中,MEMC-Net_DB优于EDSR_DB、ToFlow与V-BM4D,能有效减少块状伪影,同时保留精细纹理。
  • 改进版本MEMC-Net*通过增强上下文建模,产生更清晰的图像,尤其在运动边界处细节恢复更佳。
  • 定性结果表明,与现有方法相比,MEMC-Net生成的边缘更清晰,伪影更少,且对精细纹理的保留更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。