QUICK REVIEW

[论文解读] Remote Heart Rate Measurement from Highly Compressed Facial Videos: an End-to-end Deep Learning Solution with Video Enhancement

Zitong Yu, Wei Peng|arXiv (Cornell University)|Jul 27, 2019

Non-Invasive Vital Sign Monitoring参考文献 37被引用 26

一句话总结

本文提出了一种端到端深度学习框架 STVEN-rPPGNet，用于从高度压缩的面部视频中进行远程光电容积脉搏波描记（rPPG）。该框架结合了时空视频增强网络（STVEN）以恢复丢失的rPPG信息，以及基于注意力机制的rPPGNet以实现精确的心率与心率变异性测量，在无高质量视频参考的情况下，于压缩视频上实现了最先进性能。

ABSTRACT

Remote photoplethysmography (rPPG), which aims at measuring heart activities without any contact, has great potential in many applications (e.g., remote healthcare). Existing rPPG approaches rely on analyzing very fine details of facial videos, which are prone to be affected by video compression. Here we propose a two-stage, end-to-end method using hidden rPPG information enhancement and attention networks, which is the first attempt to counter video compression loss and recover rPPG signals from highly compressed videos. The method includes two parts: 1) a Spatio-Temporal Video Enhancement Network (STVEN) for video enhancement, and 2) an rPPG network (rPPGNet) for rPPG signal recovery. The rPPGNet can work on its own for robust rPPG measurement, and the STVEN network can be added and jointly trained to further boost the performance especially on highly compressed videos. Comprehensive experiments are performed on two benchmark datasets to show that, 1) the proposed method not only achieves superior performance on compressed videos with high-quality videos pair, 2) it also generalizes well on novel data with only compressed videos available, which implies the promising potential for real world applications.

研究动机与目标

为解决高度压缩面部视频中rPPG信号质量下降的问题，该问题限制了远程医疗应用的性能。
开发一种可直接从压缩视频中恢复rPPG信号的方法，而无需原始高质量视频参考。
提升rPPG测量在不同视频编码格式与压缩级别下的鲁棒性与泛化能力。
利用深度学习实现从压缩视频中准确估计心率（HR）与心率变异性（HRV）

提出的方法

该方法包含两个阶段：首先通过STVEN（时空视频增强网络）进行视频增强，随后利用rPPGNet恢复rPPG信号。
STVEN是一种细粒度学习的视频到视频转换生成器，用于恢复压缩过程中丢失的rPPG相关细节。
rPPGNet采用基于皮肤的注意力机制与区域划分约束，聚焦于具有生理相关性的面部区域。
该框架通过视频增强与rPPG恢复任务的联合优化实现端到端训练。
STVEN在配对的压缩视频与原始高质量视频上进行训练，而rPPGNet则在高质量视频上预训练，并与STVEN联合微调。
模型采用两阶段级联结构：STVEN首先增强压缩输入，rPPGNet随后处理增强后的输出以实现信号恢复。

实验结果

研究问题

RQ1在传统方法失效的高度压缩面部视频中，rPPG信号能否被有效恢复？
RQ2专用的视频增强网络（STVEN）是否能提升压缩视频上的rPPG性能？
RQ3所提出的端到端系统能否在未见过的视频编码格式与压缩级别下实现泛化，且无需原始高质量视频？
RQ4与均匀像素加权相比，rPPGNet中的注意力机制如何提升信号恢复效果？
RQ5与独立训练相比，STVEN与rPPGNet的联合训练对性能有何影响？

主要发现

在MAHNOB-HCI数据集上，STVEN+rPPGNet系统实现了5.57 bpm的心率标准差（HR SD），优于所有先前方法。
该方法将平均绝对误差（MAE）降低至4.03 bpm，均方根误差（RMSE）降低至5.93 bpm，皮尔逊相关系数（R）达到0.88。
STVEN显著提升了rPPGNet在高度压缩视频上的性能，而DnCNN（标准去噪网络）则导致性能下降。
该系统在未见编码格式上表现出良好泛化能力：在x264上训练后，其在MPEG4与x265压缩视频上均表现出色。
可视化结果证实，rPPGNet中的注意力图聚焦于额头与面颊等具有生理意义的区域，与已有知识一致。
增强后的视频呈现出更平滑的rPPG信号，且PSNR波动减小，表明信号一致性与鲁棒性得到提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。