[论文解读] Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks
该论文提出 PhysNet,一种端到端的时空网络,从原始面部视频中重建精确的 rPPG 信号,从而支持详细的 HRV 分析和 AF/情感检测。
Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the average HR is not sufficient, and measuring precise rPPG signals from face for heart rate variability (HRV) analysis is needed. Here we propose an rPPG measurement method, which is the first work to use deep spatio-temporal networks for reconstructing precise rPPG signals from raw facial videos. With the constraint of trend-consistency with ground truth pulse curves, our method is able to recover rPPG signals with accurate pulse peaks. Comprehensive experiments are conducted on two benchmark datasets, and results demonstrate that our method can achieve superior performance on both HR and HRV levels comparing to the state-of-the-art methods. We also achieve promising results of using reconstructed rPPG signals for AF detection and emotion recognition.
研究动机与目标
- 推动超越平均心率的精确非接触心活动测量。
- 开发一个能够捕捉 rPPG 信号恢复时空上下文的端到端框架。
- 实现适用于 AF 检测与情感识别的 HRV 分析与峰值定位。
- 比较时空建模方法以确立对 rPPG 有效的体系结构。
提出的方法
- 提出 PhysNet,一个端到端的时空网络,使用 1x1x1 的通道级投影将一系列 RGB 面部帧映射到 1D rPPG 信号。
- 探索基于 3DCNN 的和基于 RNN 的时空模型(PhysNet-3DCNN、PhysNet-3DCNN-ED、PhysNet-LSTM、PhysNet-BiLSTM、PhysNet-ConvLSTM)。
- 使用负 Pearson 相关作为损失以使趋势和峰值时间对齐 ground truth PPG 信号。
- 在 OBF 数据集上进行训练并在 HR 与 HRV 指标上评估,在 MAHNOB-HCI 上进行跨数据集测试。
- 与 ROI_green、CHROM 和 POS 基线进行对比,并报告 AF 检测与情感识别结果。
实验结果
研究问题
- RQ1端到端的时空网络是否能从原始面部视频准确重建 rPPG 信号?
- RQ2时间上下文和峰值定位是否能提升 HRV 测量相较于传统的平均 HR 估计?
- RQ3哪种时空建模方法能在 rPPG 恢复方面实现最佳的 HR 和 HRV 性能?
- RQ4恢复的 rPPG 信号是否有助于 AF 检测与情感识别?
- RQ5PhysNet 在新数据集上的泛化能力如何(跨数据集评估)?
主要发现
| 方法 | HR RMSE(均方根误差) | HR R(相关系数) | RF RMSE(均方根误差) | RF R(相关系数) | LF RMSE(均方根误差) | LF R(相关系数) | HF RMSE(均方根误差) | HF R(相关系数) | LF/HF RMSE(均方根误差) | LF/HF R(相关系数) |
|---|---|---|---|---|---|---|---|---|---|---|
| ROI_green | 2.162 | 0.99 | 0.084 | 0.321 | 0.24 | 0.573 | 0.24 | 0.573 | 0.832 | 0.571 |
| CHROM | 2.733 | 0.98 | 0.081 | 0.224 | 0.206 | 0.524 | 0.206 | 0.524 | 0.863 | 0.459 |
| POS | 1.906 | 0.991 | 0.07 | 0.44 | 0.158 | 0.727 | 0.158 | 0.727 | 0.679 | 0.687 |
| PhysNet128-3DCNN-ED | 1.812 | 0.992 | 0.066 | 0.507 | 0.148 | 0.766 | 0.148 | 0.766 | 0.631 | 0.739 |
- NegPearson 损失在 HR 与 HRV 指标上均优于 MSE,带来更低的 RMSE 与更高的 R 值。
- 基于 3DCNN 的 PhysNet 具备编码器-解码器结构(PhysNet-3DCNN-ED)在 HR 与 HRV 测量上优于 2DCNN 变体和基于 RNN 的模型。
- PhysNet128-3DCNN-ED 在 HR 和 HRV 基准测试上表现最优,超越 ROI_green、CHROM 与 POS 基线。
- 在 MAHNOB-HCI 的跨数据集测试中,使用 OBF 训练的 PhysNet 模型展示出具有竞争力的泛化能力。
- 恢复的 rPPG 信号可用于 AF 检测,且情感识别在价态/唤醒等维度表现显著。
- 推断快速(例如 30s 视频 ~0.235s,Tesla P100),实现实时应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。