[论文解读] Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks
本文提出 PhysNet,一种端到端的时空网络,用于从原始面部视频恢复精确的 rPPG 信号,从而实现 HRV 分析及如 AF 检测和情绪识别等应用。
Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the average HR is not sufficient, and measuring precise rPPG signals from face for heart rate variability (HRV) analysis is needed. Here we propose an rPPG measurement method, which is the first work to use deep spatio-temporal networks for reconstructing precise rPPG signals from raw facial videos. With the constraint of trend-consistency with ground truth pulse curves, our method is able to recover rPPG signals with accurate pulse peaks. Comprehensive experiments are conducted on two benchmark datasets, and results demonstrate that our method can achieve superior performance on both HR and HRV levels comparing to the state-of-the-art methods. We also achieve promising results of using reconstructed rPPG signals for AF detection and emotion recognition.
研究动机与目标
- 促进改进的 rPPG 信号重建,超越平均心率以实现 HRV 分析。
- 开发一个端到端的时空模型,利用时序上下文来准确定位脉搏峰值。
- 在大规模数据集上评估多种时空结构与损失函数,以提升泛化能力。
- 展示使用重建的 rPPG 信号在 AF 检测和情绪识别中的应用。
提出的方法
- 提出 PhysNet:一个端到端框架,通过 1x1x1 通道卷积从一系列面部帧输出 rPPG 信号。
- 探索两种时空骨干网络:3D CNN(PhysNet-3DCNN 和 PhysNet-3DCNN-ED)以及基于 RNN 的变体(PhysNet-LSTM、-BiLSTM、-ConvLSTM)。
- 使用负皮尔逊相关损失进行训练,以最大化趋势相似性并校正峰值时序。
- 使用 30 fps 下采样输入以及地面实测的 PPG 信号(用于训练)或 ECG 信号(用于测试)作为参考。
- 在 OBF 和 MAHNOB-HCI 数据集上以 HR、HRV 指标,以及 AF 检测和情绪识别任务进行评估。
- 展示无需预处理的实时推理能力。
实验结果
研究问题
- RQ1端到端的时空网络是否能够从原始面部视频中恢复脉搏精确的 rPPG 信号,从而用于 HRV 分析?
- RQ2哪种时空建模方法(3D CNN 与基于 RNN 的)在跨数据集上最能保留脉搏峰值时序和 HRV 特征?
- RQ3所提出的负皮尔逊损失相比于 MSE 是否能提升峰值时间的准确性和 HRV 指标?
- RQ4该方法在跨数据集的泛化能力如何,并能否利用 HRV 特征支持 AF 检测和情绪识别?
主要发现
- PhysNet-128-3DCNN-ED 实现了最佳的 HRV 感知性能,在 RMSE 和相关性方面多项指标超过 ROI_green、CHROM 和 POS。
- 负皮尔逊损失在 HR 和 HRV 估计方面优于 MSE,减少峰值不准确并改善趋势对齐。
- 基于 3D CNN 的 PhysNet 变体(带编码器-解码器)相较于 2D CNN 或 LSTM 变体更好地捕捉时间上下文并降低噪声。
- PhysNet128-3DCNN-ED 实现了 AF 检测准确率 80.22% 和特异性 81.71%,超过先前的 ROI_green、CHROM 和 POS 方法。
- 在 MAHNOB-HCI 上,PhysNet-128-3DCNN-ED 提供了有竞争力的 HRV 支持情绪识别结果,且在 P100 GPU 上实现了实时推理(约 3830 fps)。
- 可视化显示学习到的面部区域(额头、面颊、下颌)提供最强的 rPPG 信息,并与真实峰值对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。