QUICK REVIEW

[논문 리뷰] Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks

Zitong Yu, Xiaobai Li|arXiv (Cornell University)|2019. 01. 01.

Non-Invasive Vital Sign Monitoring인용 수 156

한 줄 요약

이 논문은 원시 얼굴 비디오로부터 정확한 rPPG 신호를 회복하기 위한 엔드투엔드 시공간 네트워크인 PhysNet을 제시하며, HRV 분석과 AF 탐지 및 감정 인식과 같은 응용을 가능하게 한다.

ABSTRACT

Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the average HR is not sufficient, and measuring precise rPPG signals from face for heart rate variability (HRV) analysis is needed. Here we propose an rPPG measurement method, which is the first work to use deep spatio-temporal networks for reconstructing precise rPPG signals from raw facial videos. With the constraint of trend-consistency with ground truth pulse curves, our method is able to recover rPPG signals with accurate pulse peaks. Comprehensive experiments are conducted on two benchmark datasets, and results demonstrate that our method can achieve superior performance on both HR and HRV levels comparing to the state-of-the-art methods. We also achieve promising results of using reconstructed rPPG signals for AF detection and emotion recognition.

연구 동기 및 목표

HRV 분석을 가능하게 하는 평균 HR을 넘는 향상된 rPPG 신호 재구성의 필요성 제시.
시계열 맥락을 활용하여 맥박 피크를 정확히 위치시키는 엔드투엔드 시공간 모델 개발.
일반화 능력을 위해 대규모 데이터셋에서 다양한 시공간 아키텍처와 손실 함수를 평가.
재구성된 rPPG 신호를 이용한 AF 탐지 및 감정 인식 응용 시연.

제안 방법

PhysNet 제안: 1x1x1 채널별 합성곱을 통해 얼굴 프레임 시퀀스에서 rPPG 신호를 출력하는 엔드투엔드 프레임워크.
두 가지 시공간 백본 탐색: 3D CNN(PhysNet-3DCNN 및 PhysNet-3DCNN-ED)과 RNN 기반 변형(PhysNet-LSTM, -BiLSTM, -ConvLSTM).
경향 유사성 최대화 및 피크 타이밍 보정을 위해 음의 Pearson 상관 손실로 학습한다.
참조로 30 fps 다운샘플 입력과 Ground-truth PPG 신호(학습용) 또는 ECG 신호(테스트용)를 사용한다.
HR 및 HRV 지표와 함께 OBF 및 MAHNOB-HCI 데이터셋에서 평가하고 AF 탐지 및 감정 인식 작업을 수행한다.
사전 처리 없이 실시간 추론을 시연한다.

실험 결과

연구 질문

RQ1원시 얼굴 비디오에서 HRV 분석에 적합한 맥박 정밀 rPPG 신호를 재현할 수 있는 엔드투엔드 시공간 네트워크가 있는가?
RQ2데이터셋 전반에 걸쳐 맥박 피크 타이밍과 HRV 특성을 가장 잘 보존하는 시공간 모델링 접근법은 무엇인가(3D CNN 대 RNN 기반)?
RQ3제안된 음의 Pearson 손실이 MSE와 비교하여 피크 타임 정확도와 HRV 지표를 개선하는가?
RQ4데이터셋 간 일반화 성능은 어떠하며 HRV 특징을 이용한 AF 탐지 및 감정 인식을 얼마나 지원하는가?

주요 결과

PhysNet-128-3DCNN-ED가 최상의 HRV 인식 성능을 달성하였으며 RMSE 및 상관계수에서 여러 지표에 걸쳐 ROI_green, CHROM, POS를 능가했다.
음의 Pearson 손실은 HR 및 HRV 추정에서 MSE를 능가하여 피크 부정확성을 줄이고 경향 정렬을 개선한다.
인코더-디코더를 갖춘 3D CNN 기반 PhysNet 변형이 2D CNN 또는 LSTM 변형에 비해 시간적 맥락을 더 잘 포착하고 노이즈를 감소시킨다.
PhysNet128-3DCNN-ED는 AF 탐지 정확도 80.22%와 특이도 81.71%를 달성했으며 이전 ROI_green, CHROM, POS 방법을 능가했다.
MAHNOB-HCI에서 PhysNet-128-3DCNN-ED는 HRV 기반 감정 인식에서 경쟁력 있는 결과를 제공했고 P100 GPU에서 실시간 추론(~3830 fps)이 시연되었다.
시각화는 학습된 얼굴 영역(이마, 뺨, 턱)이 가장 강한 rPPG 정보를 제공하고 ground truth와의 정확한 피크 정렬에 기여함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.