[논문 리뷰] BrainRVQ: A High-Fidelity EEG Foundation Model via Dual-Domain Residual Quantization and Hierarchical Autoregression
BrainRVQ는 이중 도메인 잔차 벡터 양자화 토크나이저와 중요도 가이드 커리큘럼 마스킹으로 고충실도 EEG 표현을 학습하고, 8개의 다운스트림 EEG 태스크에서 최첨단 결과를 달성합니다.
Developing foundation models for electroencephalography (EEG) remains challenging due to the signal's low signal-to-noise ratio and complex spectro-temporal non-stationarity. Existing approaches often overlook the hierarchical latent structure inherent in neural dynamics, leading to suboptimal reconstruction of fine-grained information. In this work, we propose BrainRVQ, a general-purpose EEG foundation model pre-trained on a large-scale corpus of clinical EEG data. Unlike standard masked modeling, BrainRVQ features a Dual-Domain Residual Vector Quantization (DD-RVQ) tokenizer that disentangles temporal waveforms and spectral patterns into hierarchical discrete codes. We further introduce a hierarchical autoregressive pre-training objective that learns to reconstruct these codes in a coarse-to-fine manner, utilizing an importance-guided curriculum masking strategy to prioritize information-rich neural events over background noise. Extensive experiments across 8 diverse downstream datasets demonstrate that BrainRVQ consistently outperforms state-of-the-art baselines, validating its effectiveness in learning robust and generalizable neural representations. Our code and model weights are available:https://github.com/keqicmz/BrainRVQ
연구 동기 및 목표
- EEG 신호의 낮은 SNR 및 비정상성으로 인한 고충실도 EEG 기초 모델 필요성의 동기 제시.
- Time-domain과 Frequency-domain 정보를 함께 인코딩하여 더 풍부한 표현을 제공하는 DD-RVQ 제안.
- 교사 강제 학습과 중요도-guided 커리큘럼 마스킹을 활용한 계층적 자동회귀 사전 학습 도입.
- 대규모 임상 EEG 말뭉치에서 사전 학습하고 다양한 다운스트림 태스크에서 일반화 검증.
- 여러 벤치마크에서 최신 EEG 기준선 대비 우수한 성능 시연
제안 방법
- Dual-Domain Residual Vector Quantization (DD-RVQ) 토크나이제이션이 시간 도메인과 주파수 도메인 양쪽에서 계층적 코드를 생성합니다.
- waveforms와 spectral 재구성을 위해 시간/주파수 RVQ 가지(branch)와 도메인별 디코더를 공유하는 인코더.
- 교사 강제 학습으로 거칠은 의존성을 미세하게 학습하는 계층적 자동회귀 사전 학습.
- 물리생리학적으로 정보가 풍부한 신경 이벤트에 우선순위를 두는 Importance-Guided Curriculum Masking과 커리큘럼 스케줄링.
- Temple University Hospital EEG Corpus (TUEG)에서 12-layer Transformer 인코더와 RVQ 코드북으로 사전 학습; 8개의 EEG 데이터셋에서 미세조정을 통한 다운스트림 어댑터 구성
실험 결과
연구 질문
- RQ1이중 도메인(시간 및 주파수) 토크나이제이션이 단일 도메인 접근법보다 EEG 표현 충실도를 향상시킬 수 있는가?
- RQ2계층적 잔차 양자화와 자동회귀 학습이 평탄한(flat) 또는 단일 레이어 토크나이제이션보다 다운스트림 성능을 향상시키는가?
- RQ3Importance-guided 커리큘럼 마스킹 전략이 학습 효율성과 다양한 EEG 태스크로의 전이를 개선하는가?
- RQ4BrainRVQ가 발작 탐지, 감정 인식, 수면 단계 분류, 운동 이미지 태스크 전반에서 얼마나 잘 일반화되는가?
주요 결과
| 방법 | 정신 작업 부하 균형 정확도 | 정신 작업 부하 AUC-PR | 정신 작업 부하 AUROC | CHB-MIT 균형 정확도 | CHB-MIT AUC-PR | CHB-MIT AUROC | TUEV 균형 정확도 | TUEV 카파 | TUEV W-F1 | BCICIV-2a 균형 정확도 | BCICIV-2a 카파 | BCICIV-2a W-F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| EEGNet | 0.677 ± 0.012 | 0.576 ± 0.010 | 0.732 ± 0.011 | 0.566 ± 0.011 | 0.191 ± 0.018 | 0.805 ± 0.014 | 0.388 ± 0.014 | 0.358 ± 0.016 | 0.654 ± 0.012 | 0.448 ± 0.009 | 0.269 ± 0.012 | 0.423 ± 0.011 |
| ST-Transformer | 0.663 ± 0.017 | 0.567 ± 0.026 | 0.713 ± 0.017 | 0.592 ± 0.020 | 0.142 ± 0.009 | 0.824 ± 0.049 | 0.398 ± 0.023 | 0.377 ± 0.031 | 0.682 ± 0.019 | 0.458 ± 0.015 | 0.273 ± 0.020 | 0.447 ± 0.014 |
| BENDR | 0.568 ± 0.045 | 0.366 ± 0.067 | 0.568 ± 0.045 | 0.561 ± 0.043 | 0.307 ± 0.124 | 0.863 ± 0.053 | 0.436 ± 0.025 | 0.427 ± 0.024 | 0.676 ± 0.022 | 0.490 ± 0.007 | 0.320 ± 0.009 | 0.484 ± 0.007 |
| BIOT | 0.688 ± 0.019 | 0.600 ± 0.020 | 0.754 ± 0.014 | 0.707 ± 0.046 | 0.328 ± 0.046 | 0.876 ± 0.028 | 0.528 ± 0.023 | 0.527 ± 0.025 | 0.749 ± 0.008 | 0.475 ± 0.009 | 0.300 ± 0.014 | 0.461 ± 0.013 |
| LaBraM | 0.691 ± 0.013 | 0.600 ± 0.016 | 0.772 ± 0.009 | 0.708 ± 0.036 | 0.329 ± 0.040 | 0.868 ± 0.020 | 0.641 ± 0.007 | 0.664 ± 0.009 | 0.831 ± 0.005 | 0.487 ± 0.009 | 0.316 ± 0.015 | 0.476 ± 0.010 |
| CBraMod | 0.726 ± 0.013 | 0.627 ± 0.010 | 0.791 ± 0.007 | 0.740 ± 0.028 | 0.369 ± 0.038 | 0.889 ± 0.015 | 0.667 ± 0.011 | 0.677 ± 0.010 | 0.834 ± 0.006 | 0.514 ± 0.007 | 0.352 ± 0.009 | 0.498 ± 0.009 |
| BrainRVQ (Ours) | 0.747 ± 0.011 | 0.758 ± 0.012 | 0.862 ± 0.010 | 0.709 ± 0.040 | 0.465 ± 0.036 | 0.928 ± 0.024 | 0.668 ± 0.015 | 0.690 ± 0.008 | 0.840 ± 0.005 | 0.541 ± 0.008 | 0.388 ± 0.008 | 0.533 ± 0.012 |
- BrainRVQ가 여덟 개의 다운스트림 EEG 데이터셋에서 일관되게 최신 기준선을 능가합니다.
- 대표적 태스크에서 BrainRVQ는 AUROC, AUC-PR, 균형 정확도 등 여러 지표에서 최고점을 달성합니다.
- 변경 가능한 두 도메인 토크나이제이션, 계층적 자동회귀, 중요도 가이드 마스킹이 모두 성능 향상에 기여한다는 제거적(ablations) 분석.
- 발작 탐지, 정신적 부하 평가, 운동 이미지 분류에서 모델의 강력한 성능 시현.
- 계층적 잔차 양자화가 특히 세밀한 운동 이미지 신호에 대해 우수한 표현적 해상도를 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.