Skip to main content
QUICK REVIEW

[论文解读] Learning to Deblur and Generate High Frame Rate Video with an Event Camera

Haoyu Chen, Minggui Teng|arXiv (Cornell University)|Mar 2, 2020
Advanced Memory and Neural Computing参考文献 33被引用 23
一句话总结

该论文提出了一种基于学习的方法,利用事件相机数据实现图像去模糊并生成高帧率(HFR)视频,采用残差学习框架。通过将去模糊问题建模为残差任务,并采用引入DenseNet模块的改进U-Net架构,同时使用Conv-LSTM模块进行视频生成,该方法在图像去模糊(32.99 dB PSNR)和HFR视频生成方面均达到当前最先进性能,且噪声更少、细节更丰富。

ABSTRACT

Event cameras are bio-inspired cameras which can measure the change of intensity asynchronously with high temporal resolution. One of the event cameras' advantages is that they do not suffer from motion blur when recording high-speed scenes. In this paper, we formulate the deblurring task on traditional cameras directed by events to be a residual learning one, and we propose corresponding network architectures for effective learning of deblurring and high frame rate video generation tasks. We first train a modified U-Net network to restore a sharp image from a blurry image using corresponding events. Then we train another similar network with different downsampling blocks to generate high frame rate video using the restored sharp image and events. Experiment results show that our method can restore sharper images and videos than state-of-the-art methods.

研究动机与目标

  • 为解决高速场景中的运动模糊问题,结合事件相机数据与深度学习。
  • 通过利用基于事件的运动线索,超越现有基于学习的方法,提升图像去模糊性能。
  • 利用递归残差学习架构,从单张模糊图像和事件数据中生成高帧率视频帧。
  • 与先前基于事件的方法相比,减少去模糊图像和生成视频中的噪声,同时保留精细细节。
  • 开发统一的去模糊与HFR视频生成流水线,利用事件相机与传统相机的互补数据。

提出的方法

  • 将图像去模糊建模为残差学习问题,利用事件数据预测残差掩码,从模糊图像中恢复清晰度。
  • 采用在每一层中引入DenseNet模块的改进U-Net,以有效提取事件堆栈的多尺度特征。
  • 使用6通道事件堆栈(而非单通道)以提升表征学习能力,增强去模糊质量。
  • 在U-Net中引入全局残差连接,以稳定训练并改善特征传播。
  • 对视频生成部分采用类似的残差架构,结合Conv-LSTM模块,从恢复的清晰图像和事件数据中递归生成高帧率视频帧。
  • 在基于GoPro数据集生成的合成数据集上训练去模糊网络,并在合成数据和真实世界数据上进行评估。

实验结果

研究问题

  • RQ1能否有效利用事件相机数据,使去模糊性能超越传统基于学习的方法?
  • RQ2与端到端或非残差方法相比,基于事件的残差学习建模是否能带来更好的去模糊性能?
  • RQ3统一的深度学习框架能否从单张模糊图像和事件数据中生成视觉质量更高的高帧率视频?
  • RQ4与单通道表示相比,多通道事件表示(6通道)在去模糊性能上表现如何?
  • RQ5如全局残差连接和Conv-LSTM模块等架构组件对去模糊与视频生成质量有何影响?

主要发现

  • 在合成数据集上,该方法达到32.99 dB的PSNR,优于Nah et al. [21] 和Tao et al. [35] 等当前最先进方法。
  • 在同一数据集上,该方法SSIM达到0.9353,显著高于次优方法Pan et al. [24] 的0.9043。
  • 在真实世界评估中,该方法生成的图像比现有方法更清晰,且由事件相机伪影引起的背景噪声更少。
  • HFR视频生成方法生成的视频噪声低于Pan et al. [24],细节丰富程度高于Rebecq et al. [9],经视觉与定量比较验证。
  • 无全局残差连接的基线方法性能下降,证实该架构组件对训练稳定性和准确性至关重要。
  • 当真实数据中事件相机参数与训练数据不一致时,特别是在棋盘格等强烈亮度变化区域,会出现失败案例,表明对领域偏移敏感。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。