QUICK REVIEW

[논문 리뷰] Remote Heart Rate Measurement from Highly Compressed Facial Videos: an End-to-end Deep Learning Solution with Video Enhancement

Zitong Yu, Wei Peng|arXiv (Cornell University)|2019. 07. 27.

Non-Invasive Vital Sign Monitoring참고 문헌 37인용 수 26

한 줄 요약

이 논문은 압축된 얼굴 영상에서 원거리 광량측정법(rPPG)을 위한 엔드 투 엔드 딥러닝 프레임워크인 STVEN-rPPGNet을 제안한다. 이 프레임워크는 손실된 rPPG 정보를 복구하기 위한 시공간 영상 강화 네트워크(STVEN)와 정확한 심박수 및 심박수 변동성 측정을 위한 어텐션 기반 rPPGNet을 조합하여, 고압축 영상에서도 최신 기술 수준의 성능을 달성한다. 고성능 영상 기준이 없어도 성능을 발휘한다.

ABSTRACT

Remote photoplethysmography (rPPG), which aims at measuring heart activities without any contact, has great potential in many applications (e.g., remote healthcare). Existing rPPG approaches rely on analyzing very fine details of facial videos, which are prone to be affected by video compression. Here we propose a two-stage, end-to-end method using hidden rPPG information enhancement and attention networks, which is the first attempt to counter video compression loss and recover rPPG signals from highly compressed videos. The method includes two parts: 1) a Spatio-Temporal Video Enhancement Network (STVEN) for video enhancement, and 2) an rPPG network (rPPGNet) for rPPG signal recovery. The rPPGNet can work on its own for robust rPPG measurement, and the STVEN network can be added and jointly trained to further boost the performance especially on highly compressed videos. Comprehensive experiments are performed on two benchmark datasets to show that, 1) the proposed method not only achieves superior performance on compressed videos with high-quality videos pair, 2) it also generalizes well on novel data with only compressed videos available, which implies the promising potential for real world applications.

연구 동기 및 목표

고압축 얼굴 영상에서 떨어진 rPPG 신호 품질 문제를 해결함으로써 원격 헬스케어 응용의 한계를 해소하고자 한다.
원본 고성능 영상 기준이 없이도 압축 영상에서 직접 rPPG 신호를 복구할 수 있는 방법을 개발하고자 한다.
다양한 영상 코덱과 압축 수준에서 rPPG 측정의 강건성과 일반화 능력을 향상시키고자 한다.
딥러닝을 활용하여 압축 영상에서 정확한 심박수(HR) 및 심박수 변동성(HRV) 추정을 가능하게 하고자 한다.

제안 방법

이 방법은 두 단계로 구성된다: STVEN(Spatio-Temporal Video Enhancement Network)를 통한 영상 강화 이후 rPPGNet을 활용한 신호 복구.
STVEN는 압축 과정에서 손실된 rPPG 관련 세부 정보를 복원하기 위해 세밀한 학습을 수행하는 영상 간 번역 생성자이다.
rPPGNet은 피부 기반 어텐션 메커니즘과 분할 제약 조건을 활용하여 생리학적으로 관련성이 높은 얼굴 영역에 집중한다.
영상 강화 및 rPPG 복구 작업을 공동 최적화하여 엔드 투 엔드로 학습된다.
STVEN는 압축 영상와 함께 원본 고성능 영상가 있는 쌍으로 학습되며, rPPGNet은 고성능 영상에서 사전 학습된 후 공동으로 미세조정된다.
모델은 두 단계 캐스케이드를 사용한다: STVEN이 압축 입력을 강화하고, rPPGNet이 강화된 출력을 처리하여 신호를 복구한다.

실험 결과

연구 질문

RQ1기존 방법이 실패하는 고압축 얼굴 영상에서 rPPG 신호를 효과적으로 복구할 수 있는가?
RQ2전용 영상 강화 네트워크(STVEN)가 압축 영상에서 rPPG 성능을 향상시키는가?
RQ3제안된 엔드 투 엔드 시스템은 원본 고성능 영상에 접근하지 못한 상태에서 예상치 못한 영상 코덱과 압축 수준에 일반화 가능한가?
RQ4rPPGNet의 어텐션 메커니즘이 균일한 픽셀 가중치와 비교해 신호 복구 성능을 어떻게 향상시키는가?
RQ5STVEN와 rPPGNet을 공동으로 학습하는 것이 별도 학습과 비교해 어떤 영향을 미치는가?

주요 결과

MAHNOB-HCI 데이터셋에서 STVEN+rPPGNet 시스템은 심박수 표준편차(HR SD)가 5.57 bpm을 기록하여 이전 모든 방법을 능가했다.
평균 절대 오차(MAE)는 4.03 bpm으로 감소하였고, 평균 제곱근 오차(RMSE)는 5.93 bpm로 줄었으며, 상관계수(R)는 0.88을 기록했다.
STVEN는 고압축 영상에서 rPPGNet 성능을 크게 향상시켰지만, 표준 노이즈 제거 네트워크인 DnCNN는 성능을 악화시켰다.
시스템은 예상치 못한 코덱으로도 잘 일반화되었다: x264로 학습한 경우 MPEG4 및 x265로 압축된 영상에서도 뛰어난 성능을 보였다.
시각화 결과 rPPGNet의 어텐션 맵이 이전 지식과 일치하는 생리학적으로 관련성이 높은 영역(예: 이마, 볼)에 집중하고 있음을 확인했다.
강화된 영상에서는 더 매끄러운 rPPG 신호와 PSNR 변동 감소가 관찰되어, 신호의 일관성과 강건성이 향상됨을 시사했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.