[论文解读] RhythmMamba: Fast, Lightweight, and Accurate Remote Physiological Measurement
RhythmMamba 是一个基于 Mamba 的端到端模型,用于远程光电容积脉搏信号测量 (rPPG),能够高效从任意长度的视频中提取准周期性信号,使用多时态 Mamba 与频域交互,在更低复杂度下实现最先进的性能。
Remote photoplethysmography (rPPG) is a method for non-contact measurement of physiological signals from facial videos, holding great potential in various applications such as healthcare, affective computing, and anti-spoofing. Existing deep learning methods struggle to address two core issues of rPPG simultaneously: understanding the periodic pattern of rPPG among long contexts and addressing large spatiotemporal redundancy in video segments. These represent a trade-off between computational complexity and the ability to capture long-range dependencies. In this paper, we introduce RhythmMamba, a state space model-based method that captures long-range dependencies while maintaining linear complexity. By viewing rPPG as a time series task through the proposed frame stem, the periodic variations in pulse waves are modeled as state transitions. Additionally, we design multi-temporal constraint and frequency domain feed-forward, both aligned with the characteristics of rPPG time series, to improve the learning capacity of Mamba for rPPG signals. Extensive experiments show that RhythmMamba achieves state-of-the-art performance with 319% throughput and 23% peak GPU memory. The codes are available at https://github.com/zizheng-guo/RhythmMamba.
研究动机与目标
- 推动基于面部视频的非接触式生理测量(rPPG),用于医疗保健、情感计算和防欺骗。
- 解决 rPPG 建模中的计算效率与长程时域依赖之间的权衡。
- 提出一个端到端的 RhythmMamba 框架,能够在不降低性能的情况下处理任意长度的视频。
提出的方法
- 引入一个 frame stem,通过差分融合、大核卷积和自注意力将空间信息聚合到 token 通道中。
- 开发多时态 Mamba,在一个 Mamba 块内处理不同长度的序列,约束长序列的周期性和短序列趋势。
- 结合频域前馈网络以在频域内实现通道间交互,强调准周期性的 rPPG 模式。
- 添加 frame stem 模块(帧级通道聚合),以减轻空间信息在时序建模中的干扰。
- 使用一个损失函数进行训练,该损失结合了时间相关性(负的皮尔逊相关)和基于心率PSD的频域约束。
- 展示随视频长度线性增加的计算增长,从而实现任意长度输入处理。
实验结果
研究问题
- RQ1RhythmMamba 是否能够在不降低性能的前提下,从任意长度的视频中准确估计 rPPG?
- RQ2多时态 Mamba 是否能够有效捕捉 rPPG 信号中的长程周期性模式与短期趋势?
- RQ3频域通道交互是否提高了对与心率相关的周期性分量在 rPPG 中的辨识?
- RQ4通过 frame stem 将空间信息聚合到通道中是否有益于基于 Mamba 的 rPPG 时序学习?
主要发现
- RhythmMamba 在数据内评估(PURE、UBFC)和具有挑战性的 MMPD 数据集上取得了最先进的性能,参数更少、MACs 更低。
- 在 MMPD 上,RhythmMamba 提供了优越的结果(例如,MAE 3.16,RMSE 7.27,MAPE 3.37,ρ 0.84,SNR 4.74),相比若干基线。
- 跨数据集评估表明,当在 PURE/UBFC 上训练并在 PURE、UBFC 和 MMPD 上测试时,RhythmMamba 泛化良好。
- 消融研究证实了 diff-fusion frame stem、大核、multi-temporal Mamba 以及频域 FFN 对性能提升的重要性。
- RhythmMamba 展现出随视频长度线性推理成本,并可通过分段和拼接结果来处理超长视频。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。