[論文レビュー] Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks
論文はPhysNetを導入する。生の顔動画から精密な rPPG 信号を再構成するエンドツーエンドの時空間ネットワークで、詳細な HRV 分析と AF/感情認識を可能にする。
Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the average HR is not sufficient, and measuring precise rPPG signals from face for heart rate variability (HRV) analysis is needed. Here we propose an rPPG measurement method, which is the first work to use deep spatio-temporal networks for reconstructing precise rPPG signals from raw facial videos. With the constraint of trend-consistency with ground truth pulse curves, our method is able to recover rPPG signals with accurate pulse peaks. Comprehensive experiments are conducted on two benchmark datasets, and results demonstrate that our method can achieve superior performance on both HR and HRV levels comparing to the state-of-the-art methods. We also achieve promising results of using reconstructed rPPG signals for AF detection and emotion recognition.
研究の動機と目的
- 平均心拍を超える正確な非接触心活動測定を動機づける。
- rPPG信号復元のために時間情報を捉えるエンドツーエンドのフレームワークを開発する。
- AF検出および感情認識に適したHRV解析とピーク局在を可能にする。
- rPPGのための有効なアーキテクチャを確立するために、時空間モデリング手法を比較する。
提案手法
- 1x1x1 チャネルごとの射影を用いて、RGB顔フレームのシーケンスを1Dの rPPG 信号にマッピングする、エンドツーエンドの時空間ネットワーク PhysNet を提案する。
- 3DCNNベースおよびRNNベースの時空間モデルを探る(PhysNet-3DCNN, PhysNet-3DCNN-ED, PhysNet-LSTM, PhysNet-BiLSTM, PhysNet-ConvLSTM)。
- 負のPearson相関を損失として用い、傾向とピークのタイミングを地上 truth のPPG信号と一致させる。
- OBFデータセットで訓練し、HRおよびHRV指標で評価し、MAHNOB-HCIでのクロスデータセット評価を実施する。
- ROI_green、CHROM、POSのベースラインと比較し、AF検出と感情認識の結果を報告する。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドの時空間ネットワークは、生の顔動画から正確にrPPG信号を再構成できるか?
- RQ2時間的文脈とピーク局在は、従来の平均HR推定よりHRV測定を改善するか?
- RQ3rPPG復元のために、どの時空間モデリング手法が最良のHRおよびHRV性能をもたらすか?
- RQ4復元されたrPPG信号はAF検出および感情認識に有用か?
- RQ5PhysNetは新しいデータセットへの一般化能力はどの程度か(クロスデータセット評価)?
主な発見
| Method | HR RMSE | HR R | RF RMSE | RF R | LF RMSE | LF R | HF RMSE | HF R | LF/HF RMSE | LF/HF R |
|---|---|---|---|---|---|---|---|---|---|---|
| ROI_green | 2.162 | 0.99 | 0.084 | 0.321 | 0.24 | 0.573 | 0.24 | 0.573 | 0.832 | 0.571 |
| CHROM | 2.733 | 0.98 | 0.081 | 0.224 | 0.206 | 0.524 | 0.206 | 0.524 | 0.863 | 0.459 |
| POS | 1.906 | 0.991 | 0.07 | 0.44 | 0.158 | 0.727 | 0.158 | 0.727 | 0.679 | 0.687 |
| PhysNet128-3DCNN-ED | 1.812 | 0.992 | 0.066 | 0.507 | 0.148 | 0.766 | 0.148 | 0.766 | 0.631 | 0.739 |
- NegPearson 損失はHRとHRVの両方の指標でMSEを上回り、RMSEを低く抑え、R値を高くする。
- 3DCNNベースのPhysNet with encoder-decoder (PhysNet-3DCNN-ED) は、HRおよびHRV測定において2DCNN系およびRNN系モデルを上回る。
- PhysNet128-3DCNN-ED は、HRおよびHRVのベンチマークで評価対象手法の中で最良の総合性能を達成し、ROI_green、CHROM、POSベースラインを上回る。
- Cross-dataset testing on MAHNOB-HCI shows competitive generalization of the PhysNet model trained on OBF.
- Using recovered rPPG signals enables AF detection with higher accuracy and emotion recognition with notable valence/arousal performance.
- Inference is fast (e.g., 30s video ~0.235s on a Tesla P100), enabling real-time applications.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。