Skip to main content
QUICK REVIEW

[论文解读] RhythmFormer: Extracting Patterned rPPG Signals based on Periodic Sparse Attention

Bochao Zou, Zizheng Guo|arXiv (Cornell University)|Feb 20, 2024
Blind Source Separation Techniques被引用 8
一句话总结

RhythmFormer 引入了一种完全端到端的 Transformer,它利用带有层次性时序周期变换器的 rPPG 准周期性,以及一个可插拔的融合干线模块,以提高 rPPG 提取的准确性和跨数据集的鲁棒性。

ABSTRACT

Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals based on facial videos, holding high potential in various applications. Due to the periodicity nature of rPPG signals, the long-range dependency capturing capacity of the transformer was assumed to be advantageous for such signals. However, existing methods have not conclusively demonstrated the superior performance of transformers over traditional convolutional neural networks. This may be attributed to the quadratic scaling exhibited by transformer with sequence length, resulting in coarse-grained feature extraction, which in turn affects robustness and generalization. To address that, this paper proposes a periodic sparse attention mechanism based on temporal attention sparsity induced by periodicity. A pre-attention stage is introduced before the conventional attention mechanism. This stage learns periodic patterns to filter out a large number of irrelevant attention computations, thus enabling fine-grained feature extraction. Moreover, to address the issue of fine-grained features being more susceptible to noise interference, a fusion stem is proposed to effectively guide self-attention towards rPPG features. It can be easily integrated into existing methods to enhance their performance. Extensive experiments show that the proposed method achieves state-of-the-art performance in both intra-dataset and cross-dataset evaluations. The codes are available at https://github.com/zizheng-guo/RhythmFormer.

研究动机与目标

  • 动机并利用 rPPG 信号的准周期性特征,以实现更准确的远程 PPG 提取。
  • 引入一个分层时序周期性变换器,以捕捉多尺度的周期性特征。
  • 提出一个融合干线模块,引导自注意力关注与 rPPG 相关的特征,并实现对其他方法的轻松迁移。
  • 在多个数据集上实现以更小的模型规模与计算量达到最先进的性能。

提出的方法

  • 提出 RhythmFormer,一种完全端到端的基于 Transformer 的框架,包含融合干线、patch 嵌入、分层时序周期性变换器(TPT)以及 rPPG 预测头。
  • 使用融合干线将差分帧与原始帧结合起来,以指导帧级别的 rPPG 感知。
  • 实现具有三个阶段的 TPT 块、多尺度时序下采样以及基于前瞻的 top-k 引导注意,以聚焦高相关区域的分层时序周期性变换器。
  • 应用带前置注意阶段(大感受野)的时间周期性稀疏注意,以及经精炼的注意阶段(top-k 区域),再加上一个 LCE 模块以增强局部位置信息。
  • 结合一个 HR 混合损失,将时间相关性、频率引导以及通过 KL 散度学习的心率分布结合起来,以更好地使训练与心率指标对齐。
  • 提供一个可即插即用的融合干线,在不改变其主干网络的情况下提升其他方法。

实验结果

研究问题

  • RQ1一个显式建模 rPPG 信号周期性的 Transformer 能否在性能上超越基于 CNN 的方法及其他 Transformer 方法?
  • RQ2带有周期性稀疏注意的多尺度时序处理是否能提升在跨数据集中的噪声和复杂性鲁棒性?
  • RQ3融合干线是否是一个可迁移的组件,在与其他方法结合时能够持续提升 rPPG 性能?
  • RQ4基于心率的混合损失如何影响学习过程和最终的心率相关指标?

主要发现

  • RhythmFormer 在 PURE 数据集上实现了同一数据集内的最先进性能,MAE 为 0.27,RMSE 为 0.47,ρ 为 0.99;在 UBFC 数据集上则为 MAE 0.50,RMSE 0.78,ρ 0.99。
  • 在具有挑战性的 MMPD 数据集上,RhythmFormer 实现 MAE 3.07、RMSE 6.81、MAPE 3.24、ρ 0.86 和 SNR 5.46,超过了此前的方法。
  • 跨数据集评估显示出强泛化能力和领域不变的 rPPG 特征学习,优于现有的端到端方法。
  • 消融研究证明融合干线、前注意和多尺度设计在提升 rPPG 提取和鲁棒性方面的有效性。
  • RhythmFormer 相较于若干基线,参数量更少(3.251M)且 MACs 更低(38.494G),表明其具有适用于移动部署的高效性。
  • 融合干线在加入到其他方法时始终提升性能,验证了其可迁移性以及对 SNR 与准确性的影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。