[論文レビュー] DeWave: Discrete EEG Waves Encoding for Brain Dynamics to Text Translation
DeWaveは離散コデックスエンコーディングを導入し、語彙オープンのEEG-to-text翻訳を可能にするとともに、単語レベルのEEG特徴と生EEG波の両方をオープンボキャブラリのテキストへ翻訳し、ZuCoでBLEU/ROUGEの最先端を達成し、イベントマークなしで生波の翻訳を実現する。
The translation of brain dynamics into natural language is pivotal for brain-computer interfaces (BCIs). With the swift advancement of large language models, such as ChatGPT, the need to bridge the gap between the brain and languages becomes increasingly pressing. Current methods, however, require eye-tracking fixations or event markers to segment brain dynamics into word-level features, which can restrict the practical application of these systems. To tackle these issues, we introduce a novel framework, DeWave, that integrates discrete encoding sequences into open-vocabulary EEG-to-text translation tasks. DeWave uses a quantized variational encoder to derive discrete codex encoding and align it with pre-trained language models. This discrete codex representation brings forth two advantages: 1) it realizes translation on raw waves without marker by introducing text-EEG contrastive alignment training, and 2) it alleviates the interference caused by individual differences in EEG waves through an invariant discrete codex with or without markers. Our model surpasses the previous baseline (40.1 and 31.7) by 3.06% and 6.34%, respectively, achieving 41.35 BLEU-1 and 33.71 Rouge-F on the ZuCo Dataset. This work is the first to facilitate the translation of entire EEG signal periods without word-level order markers (e.g., eye fixations), scoring 20.5 BLEU-1 and 29.5 Rouge-1 on the ZuCo Dataset.
研究の動機と目的
- 視線追跡マーカーやイベントタグに依存せず、オープンボキャラリEEG-to-text翻訳を可能にすることで、脳ダイナミクスと自然言語を橋渡しする。
- EEG特徴を事前学習済み言語モデルと整合させる離散コデックス表現を導入する。
- 自己教師付きエンコーディングとテキスト整列対比学習を通じて、生EEG波から直接翻訳を可能にする。
提案手法
- EEG埋め込みから離散コデックスを生成するためにベクトル量子化変分エンコーダを用いる。
- 生成のために離散コデックスを事前学習済み言語モデル(BART)と整合させる。
- 自己再構成損失、EEG-テキスト対比整合、そしてコデックス一貫性損失の組み合わせで訓練する。
- 語レベルEEGの場合、視線固定セグメント化特徴を埋め込みにエンコードし、コデックストークンへマッピングする。
- 生EEG波の場合、自己教師付きのConformerベースのエンコーダを用いて、コデックストークンに量子化される埋め込みを生成する。
実験結果
リサーチクエスチョン
- RQ1離散コデックスエンコーディングは、オープンボキャラリEEG-to-text翻訳において被験者間のEEG変動に対する頑健性を向上させるか。
- RQ2語レベルのイベントマーカー(例:視線固定)なしで、離散潜在空間を用いてEEG信号をテキストに翻訳することは可能か。
- RQ3EEG由来のコデックストークンを事前学習済み言語モデルと整合させることが、EEG-to-textタスクの翻訳品質にどのように影響するか。
主な発見
| Method | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | ROUGE-1 | ROUGE-1 Recall | ROUGE-1 Precision | ROUGE-1 F1 |
|---|---|---|---|---|---|---|---|---|
| EEG-to-Text [48] (word-level features) | 40.12 | 23.18 | 12.61 | 6.80 | 28.84 | 31.69 | 30.10 | |
| DeWave (word-level features) | 41.35 | 24.15 | 13.92 | 8.22 | 28.82 | 33.71 | 30.69 | |
| EEG-to-Text † [48] (raw waves) | 13.07 | 5.78 | 2.55 | 1.10 | 15.22 | 18.08 | 16.36 | |
| Wave2Vec [2] (raw waves) | 18.15 | 8.94 | 3.89 | 2.04 | 18.96 | 23.86 | 20.07 | |
| BENDR [11] (raw waves) | 18.48 | 9.16 | 4.05 | 2.15 | 19.03 | 25.22 | 21.18 | |
| DeWave (raw waves) | 20.51 | 10.18 | 5.16 | 2.52 | 21.18 | 29.42 | 24.27 | |
| DeWave+Contrastive (raw waves) | 21.09 | 10.69 | 5.88 | 3.04 | 22.01 | 29.95 | 24.68 |
- 語レベルEEG特徴では、DeWaveはBLEU-1 41.35およびROUGE-1 28.82を達成し、1つの指標設定でベースラインよりBLEU-1で1.23、ROUGE-1で0.00上回る。
- 語レベルEEG特徴では、DeWaveはBLEU-1 41.35、BLEU-2 24.15、BLEU-3 13.92、BLEU-4 8.22、ROUGE-1リコール 28.82、ROUGE-1プリーズシオン 33.71、ROUGE-1 F1 30.69。
- 生EEG波では、DeWaveはBLEU-1 20.51およびROUGE-1 21.18を達成し、単純な時間窓スライシングを用いるベースラインを大幅に上回る。
- 対照学習(DeWave+Contrastive)により、BLEU-1は21.09、ROUGE-1は22.01に向上し、クロスモーダル整合性による共同効果を示す。
- ZuCo上の従来のEEG-to-textベースラインと比較して、DeWaveはオープンボキャブラリ設定(語レベル特徴)でBLEU-1を約3.06%、ROUGE-1を約6.34%改善した。
- DeWaveは、マーカーなしで初の生EEG波からテキストへの翻訳を実証し、オープンボキャブラリ枠組みでBLEU-1 20.51およびROUGE-1 29.42を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。