Skip to main content
QUICK REVIEW

[論文レビュー] RhythmFormer: Extracting Patterned rPPG Signals based on Periodic Sparse Attention

Bochao Zou, Zizheng Guo|arXiv (Cornell University)|Feb 20, 2024
Blind Source Separation Techniques被引用数 8
ひとこと要約

RhythmFormer は、階層的時間的周期性変換器とプラグアンドプレイのフュージョンステムを備え、rPPG の抽出とデータセット横断の頑健性を向上させる、rPPG の準周期性を活用した完全なエンドツーエンドのトランスフォーマーを導入します。

ABSTRACT

Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals based on facial videos, holding high potential in various applications. Due to the periodicity nature of rPPG signals, the long-range dependency capturing capacity of the transformer was assumed to be advantageous for such signals. However, existing methods have not conclusively demonstrated the superior performance of transformers over traditional convolutional neural networks. This may be attributed to the quadratic scaling exhibited by transformer with sequence length, resulting in coarse-grained feature extraction, which in turn affects robustness and generalization. To address that, this paper proposes a periodic sparse attention mechanism based on temporal attention sparsity induced by periodicity. A pre-attention stage is introduced before the conventional attention mechanism. This stage learns periodic patterns to filter out a large number of irrelevant attention computations, thus enabling fine-grained feature extraction. Moreover, to address the issue of fine-grained features being more susceptible to noise interference, a fusion stem is proposed to effectively guide self-attention towards rPPG features. It can be easily integrated into existing methods to enhance their performance. Extensive experiments show that the proposed method achieves state-of-the-art performance in both intra-dataset and cross-dataset evaluations. The codes are available at https://github.com/zizheng-guo/RhythmFormer.

研究の動機と目的

  • リモートPPG抽出をより正確にするために、rPPG信号の準周期性を動機づけ、活用する。
  • マルチスケールの周期特徴を捉えるために、階層的時間的周期変換器を導入する。
  • rPPG関連の特徴へ自己注意を誘導するフュージョンステムを提案し、他の手法への容易な移植を可能にする。
  • 複数のデータセットに跨って、モデルサイズと計算量を削減しつつ最先端の性能を達成する。

提案手法

  • RhythmFormer を提案する。フュージョンステム、パッチ埋め込み、Hierarchical Temporal Periodic Transformer(TPT)、および rPPG 予測ヘッドを備えた完全なエンドツーエンドのトランスフォーマーベースのフレームワーク。
  • 差分フレームと生フレームを組み合わせてフレームレベルの rPPG 認識を導くフュージョンステムを使用する。
  • 三段の TPT ブロックと多スケールの時間的ダウンサンプリング、および高相関領域に焦点を当てる top-k ガイド付き事前注意を備えた階層的時間的周期変換器を実装する。
  • 事前注意段(大きな受容野)と洗練された注意段(top-k領域)を備えた時間的周期スパースアテンションを適用し、局所的位置情報を高める LCE モジュールを追加する。
  • 時系列相関、周波数ガイダンス、および KL 散布による学習済み心拍分布を組み合わせた HR ハイブリッド損失を組み込み、HR 指標に合わせて学習をより適切に整列させる。
  • バックボーンを変更せずに他の手法を改善するプラグアンドプレイ型のフュージョンステムを提供する。

実験結果

リサーチクエスチョン

  • RQ1rPPG 信号の周期性を明示的にモデル化するトランスフォーマーは、CNN ベースおよび他のトランスフォーマー手法を上回ることができるか。
  • RQ2周期的スパースアテンションを用いた多スケールの時間処理は、データセットを横断するノイズや複雑さに対する頑健性を向上させるか。
  • RQ3フュージョンステムは、他の手法に組み込んだときに一貫して rPPG の性能を向上させる移植可能な成分か。
  • RQ4HR ベースのハイブリッド損失は、学習と最終的な心拍関連指標にどのように影響するか。

主な発見

  • RhythmFormer は PURE データセット内で MAE 0.27、RMSE 0.47、ρ 0.99 の最先端性能を達成し、UBFC では MAE 0.50、RMSE 0.78、ρ 0.99 を達成した。
  • 困難な MMPD データセットでは、RhythmFormer は MAE 3.07、RMSE 6.81、MAPE 3.24、ρ 0.86、SNR 5.46 を達成し、従来手法を上回った。
  • データセット横断評価は強い一般化能力とドメイン不変の rPPG 特徴学習を示し、既存のエンドツーエンド手法を上回る。
  • アブレーション研究は、フュージョンステム、事前注意、および多スケール設計が rPPG 抽出と頑健性の向上に効果的であることを示す。
  • RhythmFormer はいくつかのベースラインと比較してパラメータ数が少なく(3.251M)、MACs も低く(38.494G)、モバイル展開に適した効率を示す。
  • フュージョンステムは他の手法へ追加した場合も一貫して性能を向上させ、移植性と SNR および精度への影響を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。