[論文レビュー] BrainRVQ: A High-Fidelity EEG Foundation Model via Dual-Domain Residual Quantization and Hierarchical Autoregression
BrainRVQ は dual-domain residual vector quantization トークナイザーと重要性に guided curriculum masking を備えた階層的自回帰 pre-training を導入し、高忠実度の EEG 表現を学習。8つの下流 EEG タスクで最先端の結果を達成。
Developing foundation models for electroencephalography (EEG) remains challenging due to the signal's low signal-to-noise ratio and complex spectro-temporal non-stationarity. Existing approaches often overlook the hierarchical latent structure inherent in neural dynamics, leading to suboptimal reconstruction of fine-grained information. In this work, we propose BrainRVQ, a general-purpose EEG foundation model pre-trained on a large-scale corpus of clinical EEG data. Unlike standard masked modeling, BrainRVQ features a Dual-Domain Residual Vector Quantization (DD-RVQ) tokenizer that disentangles temporal waveforms and spectral patterns into hierarchical discrete codes. We further introduce a hierarchical autoregressive pre-training objective that learns to reconstruct these codes in a coarse-to-fine manner, utilizing an importance-guided curriculum masking strategy to prioritize information-rich neural events over background noise. Extensive experiments across 8 diverse downstream datasets demonstrate that BrainRVQ consistently outperforms state-of-the-art baselines, validating its effectiveness in learning robust and generalizable neural representations. Our code and model weights are available:https://github.com/keqicmz/BrainRVQ
研究の動機と目的
- EEG 信号の低 SNR と非定常性のため、高忠実度 EEG 基盤モデルの必要性を動機づける。
- 時間領域と周波数領域情報を同時に符号化して、よりリッチな表現を得るために DD-RVQ を提案する。
- 教師強制と重要度ガイド付きカリキュラムマスキングを用いた階層的自回帰事前学習を導入する。
- 大規模な臨床 EEG コーパスで事前学習を行い、様々な下流タスクでの一般化を検証する。
- 複数のベンチマークにおいて、最先端 EEG ベースラインと比較して優れた性能を示す。
提案手法
- 時間-周波数双方の階層コードを生成する Dual-Domain Residual Vector Quantization (DD-RVQ) トークナイゼーション。
- 波形再構成とスペクトル再構成のための時間域および周波数域 RVQ ブランチを共有エンコーダに結合し、ドメイン特異的デコーダを用意。
- 粗さから細部への依存関係を教師強制付きでモデル化する階層的自回帰 pre-training。
- 生理学を考慮したスコアリングとカリキュラムスケジューリングを用いた重要度ガイド付きカリキュラムマスキング。
- Temple University Hospital EEG Corpus (TUEG) を用いた事前学習(12 層 Transformer エンコーダーと RVQ コードブック);8つの EEG データセットでファインチューニングによる下流アダプタを用意。
実験結果
リサーチクエスチョン
- RQ1時間領域と周波数領域のデュアルドメイントークン化は、単一ドメイン手法より EEG 表現の忠実度を向上させるか?
- RQ2階層的残差量子化と自回帰学習は、フラットあるいは単一層トークン化より下流性能を改善するか?
- RQ3重要度ガイド付きカリキュラムマスキングは学習効率と多様な EEG タスクへの転移を改善するか?
- RQ4BrainRVQ は発作検出、感情認識、睡眠ステージ分類、運動想像タスクに across-generalization 可能か?
主な発見
| Method | Mental Workload Bal.Acc | Mental Workload AUC-PR | Mental Workload AUROC | CHB-MIT Bal.Acc | CHB-MIT AUC-PR | CHB-MIT AUROC | TUEV Bal.Acc | TUEV Kappa | TUEV W-F1 | BCICIV-2a Bal.Acc | BCICIV-2a Kappa | BCICIV-2a W-F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| EEGNet | 0.677 ± 0.012 | 0.576 ± 0.010 | 0.732 ± 0.011 | 0.566 ± 0.011 | 0.191 ± 0.018 | 0.805 ± 0.014 | 0.388 ± 0.014 | 0.358 ± 0.016 | 0.654 ± 0.012 | 0.448 ± 0.009 | 0.269 ± 0.012 | 0.423 ± 0.011 |
| ST-Transformer | 0.663 ± 0.017 | 0.567 ± 0.026 | 0.713 ± 0.017 | 0.592 ± 0.020 | 0.142 ± 0.009 | 0.824 ± 0.049 | 0.398 ± 0.023 | 0.377 ± 0.031 | 0.682 ± 0.019 | 0.458 ± 0.015 | 0.273 ± 0.020 | 0.447 ± 0.014 |
| BENDR | 0.568 ± 0.045 | 0.366 ± 0.067 | 0.568 ± 0.045 | 0.561 ± 0.043 | 0.307 ± 0.124 | 0.863 ± 0.053 | 0.436 ± 0.025 | 0.427 ± 0.024 | 0.676 ± 0.022 | 0.490 ± 0.007 | 0.320 ± 0.009 | 0.484 ± 0.007 |
| BIOT | 0.688 ± 0.019 | 0.600 ± 0.020 | 0.754 ± 0.014 | 0.707 ± 0.046 | 0.328 ± 0.046 | 0.876 ± 0.028 | 0.528 ± 0.023 | 0.527 ± 0.025 | 0.749 ± 0.008 | 0.475 ± 0.009 | 0.300 ± 0.014 | 0.461 ± 0.013 |
| LaBraM | 0.691 ± 0.013 | 0.600 ± 0.016 | 0.772 ± 0.009 | 0.708 ± 0.036 | 0.329 ± 0.040 | 0.868 ± 0.020 | 0.641 ± 0.007 | 0.664 ± 0.009 | 0.831 ± 0.005 | 0.487 ± 0.009 | 0.316 ± 0.015 | 0.476 ± 0.010 |
| CBraMod | 0.726 ± 0.013 | 0.627 ± 0.010 | 0.791 ± 0.007 | 0.740 ± 0.028 | 0.369 ± 0.038 | 0.889 ± 0.015 | 0.667 ± 0.011 | 0.677 ± 0.010 | 0.834 ± 0.006 | 0.514 ± 0.007 | 0.352 ± 0.009 | 0.498 ± 0.009 |
| BrainRVQ (Ours) | 0.747 ± 0.011 | 0.758 ± 0.012 | 0.862 ± 0.010 | 0.709 ± 0.040 | 0.465 ± 0.036 | 0.928 ± 0.024 | 0.668 ± 0.015 | 0.690 ± 0.008 | 0.840 ± 0.005 | 0.541 ± 0.008 | 0.388 ± 0.008 | 0.533 ± 0.012 |
- BrainRVQ は eight つの下流 EEG データセットで一貫して最先端ベースラインを上回る。
- 代表的なタスクで、AUROC、AUC-PR、バランス精度を含む複数指標で最高点を達成。
- アブレーション解析により、双域トークン化、階層的自回帰、重要度ガイド付きマスキングがすべて性能向上に寄与。
- 発作検出、精神的作業負荷評価、運動想像分類の分野で強力な性能を示す。
- 階層的残差量子化は、微細な運動想像信号に対して特に優れた表現粒度を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。