QUICK REVIEW

[論文レビュー] PhysNeXt: Next-Generation Dual-Branch Structured Attention Fusion Network for Remote Photoplethysmography Measurement

Junzhe Cao, Bo Zhao|arXiv (Cornell University)|Mar 20, 2026

Non-Invasive Vital Sign Monitoring被引用数 0

ひとこと要約

PhysNeXt は raw video と空間–時間マップ（STMap）入力を共同処理するデュアルストリームネットワークで、クロスモーダル拡散、信頼度ゲーティングによる情報交換、構造化注意を用いてデータセット横断でロバスト性と精度を向上させる。

ABSTRACT

Remote photoplethysmography (rPPG) enables contactless measurement of heart rate and other vital signs by analyzing subtle color variations in facial skin induced by cardiac pulsation. Current rPPG methods are mainly based on either end-to-end modeling from raw videos or intermediate spatial-temporal map (STMap) representations. The former preserves complete spatiotemporal information and can capture subtle heartbeat-related signals, but it also introduces substantial noise from motion artifacts and illumination variations. The latter stacks the temporal color changes of multiple facial regions of interest into compact two-dimensional representations, significantly reducing data volume and computational complexity, although some high-frequency details may be lost. To effectively integrate the mutual strengths, we propose PhysNeXt, a dual-input deep learning framework that jointly exploits video frames and STMap representations. By incorporating a spatio-temporal difference modeling unit, a cross-modal interaction module, and a structured attention-based decoder, PhysNeXt collaboratively enhances the robustness of pulse signal extraction. Experimental results demonstrate that PhysNeXt achieves more stable and fine-grained rPPG signal recovery under challenging conditions, validating the effectiveness of joint modeling of video and STMap representations. The codes will be released.

研究の動機と目的

動きと照明の課題下での堅牢な rPPG 測定を促進するため、補完的な入力表現（ビデオと STMap）を活用する。
モダリティ間の効果的なクロスモーダル相互作用と情報交換を可能にするデュアルストリームアーキテクチャを設計する。
構造化注意を持つ融合デコーダを開発し、rPPG 波形の正確な回復を達成する。
複数のベンチマークで、同士・他データセット間の優れた一般化を示す。

提案手法

raw video フレーム（Video Branch）と STMap 表現（STMap Branch）を処理するデュアルストリームアーキテクチャ。
STMap Branch の Spatio-Temporal Difference Modeling Unit（SDMU）を用いて Pixel Difference Convolution（PDC）による心拍関連変動を強化。
Video と STMap の特徴間の情報流を調整する信頼度ゲーティング付き Bidirectional cross-modal exchange blocks（DCEB）。
モダリティ間の時系列特徴を整合させる周波数領域の波形マッチング。
クロスモーダル整合性と波形強度に基づく信頼度ゲーティングを用いて時間とともに融合重みを適応。
高レベル特徴を両ストリームから統合するためのマスク付きマルチヘッド注意機構を持つグローバル state token と学習可能な query token を用いた Structured Attention Fusion Decoder。

実験結果

リサーチクエスチョン

RQ1 raw video と STMap 表現を同時にモデル化することで、難_conditions下での rPPG 信号回復が改善されるか。
RQ2 クロスモーダル相互作用をどのように設計して video と STMap の特徴を効果的に整合・補完できるか。
RQ3 Structured Attention ベースの融合デコーダは、他のデコード戦略と比較して rPPG 波形再構築を改善するか。
RQ4 デュアルストリームの PhysNeXt は、 intra-および cross-dataset 設定や限られたソースデータ下で一般化するか。

主な発見

PhysNeXt は intra-dataset 評価において UBFC-RPPG、PURE、BUAA-MIHR、MMPD のいずれかで最先端またはほぼ最先端の性能を達成。
クロスデータセット/一般化テストでは、PhysNeXt はターゲットドメイン全体で強力な性能を示し、限定的なソースデータ下でも頑健性を維持。
アブレーション研究は、両モダリティの併用が性能を向上させ、双方向のクロスモーダル交換が必須であり、構造化注意デコーダが UBFC と MMPD で最良の RMSE を達成することを示す。
DCEB または構造化注意デコーダを除くと性能が低下することが確認され、各モジュールの寄与が裏付けられる。
限られたソースドメイン実験では、PhysNeXt は MAE、RMSE、Pearson's R で競合モデルを一貫して上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。