[論文レビュー] RhythmMamba: Fast, Lightweight, and Accurate Remote Physiological Measurement
RhythmMamba は、任意長の動画から準周期信号を効率的に抽出する Mamba ベースのエンドツーエンドモデルで、マルチ-temporal Mamba と周波数領域の相互作用を用い、計算量を抑えつつ最先端性能を達成する。
Remote photoplethysmography (rPPG) is a method for non-contact measurement of physiological signals from facial videos, holding great potential in various applications such as healthcare, affective computing, and anti-spoofing. Existing deep learning methods struggle to address two core issues of rPPG simultaneously: understanding the periodic pattern of rPPG among long contexts and addressing large spatiotemporal redundancy in video segments. These represent a trade-off between computational complexity and the ability to capture long-range dependencies. In this paper, we introduce RhythmMamba, a state space model-based method that captures long-range dependencies while maintaining linear complexity. By viewing rPPG as a time series task through the proposed frame stem, the periodic variations in pulse waves are modeled as state transitions. Additionally, we design multi-temporal constraint and frequency domain feed-forward, both aligned with the characteristics of rPPG time series, to improve the learning capacity of Mamba for rPPG signals. Extensive experiments show that RhythmMamba achieves state-of-the-art performance with 319% throughput and 23% peak GPU memory. The codes are available at https://github.com/zizheng-guo/RhythmMamba.
研究の動機と目的
- 非接触の生理測定(rPPG)を facial videos から healthcare, affective computing, anti-spoofing のために動機づける。
- rPPG モデリングにおける計算効率と長距離時系列依存性のトレードオフに対処する。
- 性能低下なしに任意長の動画長を処理できる end-to-end RhythmMamba フレームワークを提案する。
提案手法
- diff-fusion、large-kernel の畳み込み、自己注意機構を介して frame stem が空間情報をトークンチャネルに集約する。
- 単一の Mamba ブロック内で varying lengths のシーケンスを処理するマルチ-temporal Mamba を開発し、長いシーケンスの周期性と短いシーケンスの傾向を制約する。
- 周波数ドメインのフィードフォワードを組み込み、周波数ドメインでのチャネル間相互作用を可能にし、準周期的な rPPG パターンを強調する。
- frame stem モジュール(frame-level channel aggregation)を追加して,時系列モデリングにおける空間情報の干渉を緩和する。
- 心拍数 PSD に基づく周波数ドメイン制約と時間相関(negative Pearson)を組み合わせた損失で訓練する。
- 動画長とともに線形の計算コストを示し、任意長入力処理を可能にする。
実験結果
リサーチクエスチョン
- RQ1RhythmMamba は、パフォーマンス低下なしに任意長の動画から rPPG を正確に推定できるか?
- RQ2multi-temporal Mamba は長距離の周期パターンと短期トレンドの両方を rPPG 信号で効果的に捉えるか?
- RQ3周波数ドメインのチャネル相互作用は rPPG の心拍関連の周期成分の識別性を改善するか?
- RQ4frame stem によって空間情報をチャネルへ集約することは、rPPG の Mamba ベース時系列学習に有益か?
主な発見
- RhythmMamba は intra-dataset 評価(PURE, UBFC)および厳しい MMPD データセットで、パラメータ数と MACs を抑えつつ最先端の性能を達成。
- MMPD で RhythmMamba は他のベースラインと比べて優れた結果を出す(例: MAE 3.16, RMSE 7.27, MAPE 3.37, ρ 0.84, SNR 4.74)。
- クロスデータセット評価は、PURE/UBFC で訓練し PURE, UBFC, MMPD でテストした場合に良く一般化することを示す。
- アブレーション研究は、diff-fusion frame stem、large kernels、multi-temporal Mamba、および周波数ドメイン FFN の性能向上の重要性を確認。
- RhythmMamba は動画長に対して線形の推論コストを示し、結果をセグメント化して連結することで超長動画を処理できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。