Skip to main content
QUICK REVIEW

[论文解读] DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks

Weixuan Chen, Daniel McDuff|arXiv (Cornell University)|May 21, 2018
Non-Invasive Vital Sign Monitoring参考文献 37被引用 44
一句话总结

DeepPhys 引入了一种端到端卷积注意力网络,用于从 RGB 和红外视频非接触式估计心率与呼吸频率,采用基于皮肤反射的运动表示和外观引导的注意力,以对头部运动和照明变化具有鲁棒性。

ABSTRACT

Non-contact video-based physiological measurement has many applications in health care and human-computer interaction. Practical applications require measurements to be accurate even in the presence of large head rotations. We propose the first end-to-end system for video-based measurement of heart and breathing rate using a deep convolutional network. The system features a new motion representation based on a skin reflection model and a new attention mechanism using appearance information to guide motion estimation, both of which enable robust measurement under heterogeneous lighting and major motions. Our approach significantly outperforms all current state-of-the-art methods on both RGB and infrared video datasets. Furthermore, it allows spatial-temporal distributions of physiological signals to be visualized via the attention mechanism.

研究动机与目标

  • 开发一个端到端的深度学习系统,从视频中恢复心率(HR)和呼吸频率(BR)。
  • 提出一种基于皮肤反射模型的新运动表示,适用于异质照明条件。
  • 引入一种外观引导的注意力机制,在运动和照明变化中鲁棒地估计生理信号。
  • 通过注意力图实现生理信号的时空分布可视化。

提出的方法

  • 引入源自皮肤反射模型的归一化帧差运动表示,以捕捉生理运动。
  • 对帧进行下采样并应用时间导数归一化,以去除静态分量和相机/亮度变化。
  • 训练一个 VGG 风格的 CNN,将运动表示映射到生理信号导数 p'(t),使用均方误差损失,然后进行带通滤波和主频提取用于 HR/BR。
  • 整合一个外观模型,学习软注意力掩码,通过专注于信号更强的皮肤区域来引导运动估计器,使用 1x1 卷积核和基于 sigmoid 的归一化(可应用于多个层)。
  • 在训练检查点上使用集成选择,选取在 HR/BR 估计中具有最小频率误差的模型。
  • 在 RGB 和红外数据集上对比多种最先进方法,在不同头部运动和照明条件下进行评估。

实验结果

研究问题

  • RQ1端到端 CNN 能否直接从基于皮肤反射的运动表示中,在多样照明条件下学习鲁棒的 HR 与 BR 信号?
  • RQ2外观引导的注意力是否相较于仅运动的模型能改善运动估计和生理信号恢复?
  • RQ3所提出的方法在具有不同设备、照明和头部运动的数据集和场景中的泛化能力如何?
  • RQ4头部运动对 HR/BR 估计有何影响,模型是否能够在大幅度运动下保持性能?

主要发现

  • CAN(卷积注意力网络)在多份 RGB 和红外数据集上对 HR 和 BR 的估计均优于最先进方法,尤其在大幅头部运动下。
  • 提出的归一化帧差运动表示结合皮肤反射建模,在异质照明下实现鲁棒的生理信号恢复。
  • 外观引导的注意力机制改进了 ROI 定位,并相对于仅运动的模型提高了测量精度。
  • 注意力可视化揭示视频帧中生理信号的时空分布(如与 HR 相关的区域)。
  • 参与者依赖结果显示强劲表现,CAN 相对于先前方法在 MAE 和 SNR 上有所提升,尤其是高运动任务;参与者无关的结果也显示出 CAN 的优势,尽管在绝对性能上通常低于完全依赖参与者的设置。
  • 跨训练检查点的集成选择进一步降低了 HR/BR 估计的频域误差。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。