[논문 리뷰] RhythmFormer: Extracting Patterned rPPG Signals based on Periodic Sparse Attention
RhythmFormer는 rPPG 준주기성을 활용하는 완전한 엔드-투-엔드 트랜스포머를 도입하여, 계층적 시간적 주기 트랜스포머와 플러그-앤-플레이 융합 스템으로 rPPG 추출과 데이터셋 간 강인성을 개선합니다.
Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals based on facial videos, holding high potential in various applications. Due to the periodicity nature of rPPG signals, the long-range dependency capturing capacity of the transformer was assumed to be advantageous for such signals. However, existing methods have not conclusively demonstrated the superior performance of transformers over traditional convolutional neural networks. This may be attributed to the quadratic scaling exhibited by transformer with sequence length, resulting in coarse-grained feature extraction, which in turn affects robustness and generalization. To address that, this paper proposes a periodic sparse attention mechanism based on temporal attention sparsity induced by periodicity. A pre-attention stage is introduced before the conventional attention mechanism. This stage learns periodic patterns to filter out a large number of irrelevant attention computations, thus enabling fine-grained feature extraction. Moreover, to address the issue of fine-grained features being more susceptible to noise interference, a fusion stem is proposed to effectively guide self-attention towards rPPG features. It can be easily integrated into existing methods to enhance their performance. Extensive experiments show that the proposed method achieves state-of-the-art performance in both intra-dataset and cross-dataset evaluations. The codes are available at https://github.com/zizheng-guo/RhythmFormer.
연구 동기 및 목표
- 원격 PPG 추출의 정확도를 높이기 위해 rPPG 신호의 준주기적 특성을 동기부여하고 활용한다.
- 다중 스케일 주기 특징을 포착하기 위한 계층적 시간적 주기 트랜스포머를 도입한다.
- rPPG 관련 특징으로 자기주목(self-attention)을 안내하고 다른 방법으로의 손쉬운 전이 가능성을 제공하는 융합 스템을 제안한다.
- 여러 데이터셋에서 모델 크기와 계산량을 감소시키면서 최첨단 성능을 달성한다.
제안 방법
- Fusion stem, 패치 임베딩, 계층적 시간적 주기 트랜스포머(TPT), 그리고 rPPG 예측 head를 갖춘 완전 엔드-투-엔드 트랜스포머 기반 프레임워크 RhythmFormer를 제안한다.
- 차이 프레임과 원시 프레임을 결합하는 융합 스템을 사용하여 프레임 수준의 rPPG 인식을 안내한다.
- 세 단계의 TPT 블록과 다중 스케일 시간적 다운샘플링 및 상위-k 가이드 사전 주의로 고상관 영역에 집중하도록 계층적 시간적 주기 트랜스포머를 구현한다.
- 사전 주의 단계(큰 수용 필드)와 정제된 주의 단계(상위-k 영역) 및 지역 위치 힌트를 강화하는 LCE 모듈을 포함하여 시간적 주기 희소 주의를 적용한다.
- 시계열 상관관계, 주파수 가이드, KL 발산을 통한 학습된 심박수 분포를 결합한 HR 하이브드 로스를 통합하여 학습을 심박수 메트릭과 더 잘 맞춘다.
- 백본을 변경하지 않고도 다른 방법의 성능을 향상시키는 플러그 앤 플레이 융합 스템을 제공한다.
실험 결과
연구 질문
- RQ1rPPG 신호의 주기성을 명시적으로 모델링하는 트랜스포머가 CNN 기반 및 다른 트랜스포머 기반 접근법을 능가할 수 있는가?
- RQ2주기적 희소 주의가 결합된 다중 스케일 시간 처리로 데이터셋 간 잡음과 복잡성에 대한 강인성이 향상되는가?
- RQ3융합 스템이 다른 방법과 통합될 때 일관되게 rPPG 성능을 향상시키는 전이 가능한 구성요소인가?
- RQ4HR 기반 하이브리드 로스가 학습 및 최종 심박수 관련 지표에 어떤 영향을 미치는가?
주요 결과
- RhythmFormer는 PURE에서 MAE 0.27, RMSE 0.47, ρ 0.99로 데이터셋 내 최고 성능을 달성했고; UBFC에서도 MAE 0.50, RMSE 0.78, ρ 0.99로 최고 성능을 달성했다.
- 도전적인 MMPD 데이터셋에서 RhythmFormer는 MAE 3.07, RMSE 6.81, MAPE 3.24, ρ 0.86, SNR 5.46을 달성하여 기존 방법을 능가했다.
- 데이터셋 간 평가에서 강한 일반화 및 도메인-불변의 rPPG 특징 학습을 보여 기존의 엔드투엔드 방법을 상회한다.
- 애블레이션 연구는 융합 스템, 선주 attention, 다중 스케일 설계가 rPPG 추출 및 강인성 향상에 효과적임을 보여준다.
- RhythmFormer는 여러 baselines에 비해 파라미터 수가 적고(3.251M), MACs가 낮아(38.494G) 모바일 배치에 적합한 효율성을 나타낸다.
- 융합 스템은 다른 방법에 추가했을 때 일관되게 성능을 향상시키며, 전이 가능성과 SNR 및 정확도에 대한 영향을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.