[논문 리뷰] DeWave: Discrete EEG Waves Encoding for Brain Dynamics to Text Translation
DeWave는 이산 codex 인코딩을 도입하여 단어 수준 EEG 특징과 원시 EEG 파형을 모두 개방 어휘 텍스트로 변환하고, ZuCo에서 최첨단 BLEU/ROUGE 성능을 달성하며 이벤트 표식 없이 원시 파형 번역을 가능하게 한다.
The translation of brain dynamics into natural language is pivotal for brain-computer interfaces (BCIs). With the swift advancement of large language models, such as ChatGPT, the need to bridge the gap between the brain and languages becomes increasingly pressing. Current methods, however, require eye-tracking fixations or event markers to segment brain dynamics into word-level features, which can restrict the practical application of these systems. To tackle these issues, we introduce a novel framework, DeWave, that integrates discrete encoding sequences into open-vocabulary EEG-to-text translation tasks. DeWave uses a quantized variational encoder to derive discrete codex encoding and align it with pre-trained language models. This discrete codex representation brings forth two advantages: 1) it realizes translation on raw waves without marker by introducing text-EEG contrastive alignment training, and 2) it alleviates the interference caused by individual differences in EEG waves through an invariant discrete codex with or without markers. Our model surpasses the previous baseline (40.1 and 31.7) by 3.06% and 6.34%, respectively, achieving 41.35 BLEU-1 and 33.71 Rouge-F on the ZuCo Dataset. This work is the first to facilitate the translation of entire EEG signal periods without word-level order markers (e.g., eye fixations), scoring 20.5 BLEU-1 and 29.5 Rouge-1 on the ZuCo Dataset.
연구 동기 및 목표
- 눈 추적 마커나 이벤트 태그에 의존하지 않고 개방 어휘 EEG-텍스트 번역을 가능하게 하여 뇌 역동과 자연어를 연결한다.
- 사전 학습된 언어 모델과 EEG 특징을 정렬하는 이산 codex 표현을 도입한다.
- 자기 감독 학습 인코딩과 텍스트 정렬 대조 학습을 통해 원시 EEG 파형으로부터의 직접 번역을 가능하게 한다.
제안 방법
- EEG 임베딩에서 이산 codex를 생성하기 위해 벡터 양자화 변분 인코더를 사용한다.
- 생성을 위해 이산 codex를 사전 학습된 언어 모델(BART)과 정렬한다.
- 자기 재구성 손실, 대조 EEG-텍스트 정렬 및 codex 일관성 손실의 조합으로 학습한다.
- 단어 수준 EEG의 경우 눈 고정 구간의 특징을 임베딩으로 인코딩하고 codex 토큰으로 매핑한다.
- 원시 EEG 파형의 경우 자기 감독 학습 기반 Conformer 인코더를 사용하여 codex 토큰으로 양자화되는 임베딩을 생성한다.
실험 결과
연구 질문
- RQ1이산 codex 인코딩이 개방 어휘 EEG-텍스트 번역에서 피험자 간 EEG 변동성에 대한 강건성을 개선할 수 있는가?
- RQ2단어 수준 이벤트 마커(예: 눈 고정) 없이 이산 잠재 공간을 사용하여 EEG 신호를 텍스트로 번역하는 것이 가능한가?
- RQ3EEG에서 도출된 codex 토큰을 사전 학습된 언어 모델과 정렬하는 것이 EEG-텍스트 과제의 번역 품질에 어떤 영향을 미치는가?
주요 결과
| Method | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | ROUGE-1 | ROUGE-1 Recall | ROUGE-1 Precision | ROUGE-1 F1 |
|---|---|---|---|---|---|---|---|---|
| EEG-to-Text [48] (word-level features) | 40.12 | 23.18 | 12.61 | 6.80 | 28.84 | 31.69 | 30.10 | |
| DeWave (word-level features) | 41.35 | 24.15 | 13.92 | 8.22 | 28.82 | 33.71 | 30.69 | |
| EEG-to-Text † [48] (raw waves) | 13.07 | 5.78 | 2.55 | 1.10 | 15.22 | 18.08 | 16.36 | |
| Wave2Vec [2] (raw waves) | 18.15 | 8.94 | 3.89 | 2.04 | 18.96 | 23.86 | 20.07 | |
| BENDR [11] (raw waves) | 18.48 | 9.16 | 4.05 | 2.15 | 19.03 | 25.22 | 21.18 | |
| DeWave (raw waves) | 20.51 | 10.18 | 5.16 | 2.52 | 21.18 | 29.42 | 24.27 | |
| DeWave+Contrastive (raw waves) | 21.09 | 10.69 | 5.88 | 3.04 | 22.01 | 29.95 | 24.68 |
- 단어 수준 EEG 특징에서 DeWave는 BLEU-1 41.35와 ROUGE-1 28.82를 달성하여 한 지표 설정에서 기준선보다 BLEU-1 1.23, ROUGE-1 0.00 향상시켰다.
- 단어 수준 EEG 특징에서 DeWave는 BLEU-1 41.35, BLEU-2 24.15, BLEU-3 13.92, BLEU-4 8.22, ROUGE-1 recall 28.82, ROUGE-1 precision 33.71, ROUGE-1 F1 30.69에 도달했다.
- 원시 EEG 파형에서 DeWave는 BLEU-1 20.51 및 ROUGE-1 21.18을 달성하여 간단한 시간 윈도우 슬라이싱을 사용하는 기준선보다 크게 우수하다.
- 대조 학습(DeWave+Contrastive)으로 BLEU-1이 21.09, ROUGE-1이 22.01로 향상되어 교차 모듈 정렬의 공동 이점을 나타낸다.
- ZuCo의 기존 EEG-텍스트 기준선과 비교하면, 개방 어휘 설정에서 BLEU-1을 약 3.06% 향상시키고 ROUGE-1을 약 6.34% 향상시킨다.
- 마커 없이 원시 EEG 파형에서 텍스트로의 최초 번역을 보여주며, 개방 어휘 프레임워크 하에서 BLEU-1 20.51 및 ROUGE-1 29.42를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.