Skip to main content
QUICK REVIEW

[论文解读] RhythmMamba: Fast, Lightweight, and Accurate Remote Physiological Measurement

Bochao Zou, Zizheng Guo|arXiv (Cornell University)|Apr 9, 2024
Non-Invasive Vital Sign Monitoring被引用 6
一句话总结

RhythmMamba 是一个基于 Mamba 的端到端模型,用于远程光电容积脉搏信号测量 (rPPG),能够高效从任意长度的视频中提取准周期性信号,使用多时态 Mamba 与频域交互,在更低复杂度下实现最先进的性能。

ABSTRACT

Remote photoplethysmography (rPPG) is a method for non-contact measurement of physiological signals from facial videos, holding great potential in various applications such as healthcare, affective computing, and anti-spoofing. Existing deep learning methods struggle to address two core issues of rPPG simultaneously: understanding the periodic pattern of rPPG among long contexts and addressing large spatiotemporal redundancy in video segments. These represent a trade-off between computational complexity and the ability to capture long-range dependencies. In this paper, we introduce RhythmMamba, a state space model-based method that captures long-range dependencies while maintaining linear complexity. By viewing rPPG as a time series task through the proposed frame stem, the periodic variations in pulse waves are modeled as state transitions. Additionally, we design multi-temporal constraint and frequency domain feed-forward, both aligned with the characteristics of rPPG time series, to improve the learning capacity of Mamba for rPPG signals. Extensive experiments show that RhythmMamba achieves state-of-the-art performance with 319% throughput and 23% peak GPU memory. The codes are available at https://github.com/zizheng-guo/RhythmMamba.

研究动机与目标

  • 推动基于面部视频的非接触式生理测量(rPPG),用于医疗保健、情感计算和防欺骗。
  • 解决 rPPG 建模中的计算效率与长程时域依赖之间的权衡。
  • 提出一个端到端的 RhythmMamba 框架,能够在不降低性能的情况下处理任意长度的视频。

提出的方法

  • 引入一个 frame stem,通过差分融合、大核卷积和自注意力将空间信息聚合到 token 通道中。
  • 开发多时态 Mamba,在一个 Mamba 块内处理不同长度的序列,约束长序列的周期性和短序列趋势。
  • 结合频域前馈网络以在频域内实现通道间交互,强调准周期性的 rPPG 模式。
  • 添加 frame stem 模块(帧级通道聚合),以减轻空间信息在时序建模中的干扰。
  • 使用一个损失函数进行训练,该损失结合了时间相关性(负的皮尔逊相关)和基于心率PSD的频域约束。
  • 展示随视频长度线性增加的计算增长,从而实现任意长度输入处理。

实验结果

研究问题

  • RQ1RhythmMamba 是否能够在不降低性能的前提下,从任意长度的视频中准确估计 rPPG?
  • RQ2多时态 Mamba 是否能够有效捕捉 rPPG 信号中的长程周期性模式与短期趋势?
  • RQ3频域通道交互是否提高了对与心率相关的周期性分量在 rPPG 中的辨识?
  • RQ4通过 frame stem 将空间信息聚合到通道中是否有益于基于 Mamba 的 rPPG 时序学习?

主要发现

  • RhythmMamba 在数据内评估(PURE、UBFC)和具有挑战性的 MMPD 数据集上取得了最先进的性能,参数更少、MACs 更低。
  • 在 MMPD 上,RhythmMamba 提供了优越的结果(例如,MAE 3.16,RMSE 7.27,MAPE 3.37,ρ 0.84,SNR 4.74),相比若干基线。
  • 跨数据集评估表明,当在 PURE/UBFC 上训练并在 PURE、UBFC 和 MMPD 上测试时,RhythmMamba 泛化良好。
  • 消融研究证实了 diff-fusion frame stem、大核、multi-temporal Mamba 以及频域 FFN 对性能提升的重要性。
  • RhythmMamba 展现出随视频长度线性推理成本,并可通过分段和拼接结果来处理超长视频。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。