QUICK REVIEW

[論文レビュー] Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks

Zitong Yu, Xiaobai Li|arXiv (Cornell University)|Jan 1, 2019

Non-Invasive Vital Sign Monitoring被引用数 156

ひとこと要約

本論文は PhysNet を提案する。生の顔動画から正確な rPPG 信号を復元するエンドツーエンドの時空間ネットワークで、HRV 分析や AF 検出・感情認識などの応用を可能にする。

ABSTRACT

Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the average HR is not sufficient, and measuring precise rPPG signals from face for heart rate variability (HRV) analysis is needed. Here we propose an rPPG measurement method, which is the first work to use deep spatio-temporal networks for reconstructing precise rPPG signals from raw facial videos. With the constraint of trend-consistency with ground truth pulse curves, our method is able to recover rPPG signals with accurate pulse peaks. Comprehensive experiments are conducted on two benchmark datasets, and results demonstrate that our method can achieve superior performance on both HR and HRV levels comparing to the state-of-the-art methods. We also achieve promising results of using reconstructed rPPG signals for AF detection and emotion recognition.

研究の動機と目的

HRV 分析を可能にするために、平均心拍だけでなく rPPG 信号再構成を改善する動機付け。
時系列コンテキストを利用して心拍ピークを正確に定位するエンドツーエンドの時空間モデルを開発する。
一般化のために大規模データセット上で複数の時空間アーキテクチャと損失関数を評価する。
再構成された rPPG 信号を用いた AF 検出と感情認識の応用を示す。

提案手法

PhysNet: フェイスフレームのシーケンスから 1x1x1 チャネル方向畳み込みで rPPG 信号を出力するエンドツーエンドのフレームワークを提案する。
2つの時空間バックボーンを検討する: 3D CNNs (PhysNet-3DCNN および PhysNet-3DCNN-ED) と RNN ベースの変種 (PhysNet-LSTM, -BiLSTM, -ConvLSTM)。
トレーニング時にはネガティブな Pearson 相関損失を用いて傾向類似性を最大化しピークタイミングを正しく修正する。
トレーニングには 30 fps のダウンサンプリング入力と地真の PPG 信号を参照として使用、テスト時には ECG 信号を参照とする。
HR および HRV 指標に加え AF 検出と感情認識タスクを含む OBF および MAHNOB-HCI データセット上で評価する。
事前処理なしでリアルタイム推論を実証する。

実験結果

リサーチクエスチョン

RQ1生の顔動画から HRV 分析に適した心拍精度の rPPG 信号を復元するエンドツーエンド時空間ネットワークは可能か。
RQ2どの時空間モデリング手法（3D CNN 対 RNN ベース）がデータセット間で心拍ピークのタイミングと HRV 特徴を最もよく保つか。
RQ3提案されたネガティブ Pearson 損失は MSE と比べてピーク時刻の精度と HRV 指標を改善するか。
RQ4方法はデータセット間でどれほど一般化し、HRV 指標を用いた AF 検出および感情認識をサポートできるか。

主な発見

PhysNet-128-3DCNN-ED は最良の HRV 応答性能を示し、RMSE および相関の点で ROI_green、CHROM、POS を越える。
ネガティブ Pearson 損失は HR および HRV 推定において MSE より優れており、ピークの不正確さを減らし傾向の整合を改善。
エンコーダ-デコーダを備えた 3D CNN ベースの PhysNet 変種は、2D CNN や LSTM 変種と比べて時系列コンテキストをより良く捉え、ノイズを低減。
PhysNet128-3DCNN-ED は AF 検出精度 80.22%、特異度 81.71% を達成し、従来の ROI_green、CHROM、POS を上回る。
MAHNOB-HCI では PhysNet-128-3DCNN-ED が HRV を用いた感情認識で競争力のある結果を提供し、リアルタイム推論（約 3830 fps）を P100 GPU 上で実証。
視覚化により学習された顔領域（額、頬、顎）が strongest rPPG 情報に寄与し、地真値とのピーク整合が正確であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。