[论文解读] Brain-to-Text Decoding: A Non-invasive Approach via Typing
论文提出 Brain2Qwerty,一种三阶段神经解码器,在打字任务中将非侵入性M/EEG大脑信号解码为文本,MEG CER 为 32%(最好 19%),EEG CER 为 67%。
Modern neuroprostheses can now restore communication in patients who have lost the ability to speak or move. However, these invasive devices entail risks inherent to neurosurgery. Here, we introduce a non-invasive method to decode the production of sentences from brain activity and demonstrate its efficacy in a cohort of 35 healthy volunteers. For this, we present Brain2Qwerty, a new deep learning architecture trained to decode sentences from either electro- (EEG) or magneto-encephalography (MEG), while participants typed briefly memorized sentences on a QWERTY keyboard. With MEG, Brain2Qwerty reaches, on average, a character-error-rate (CER) of 32% and substantially outperforms EEG (CER: 67%). For the best participants, the model achieves a CER of 19%, and can perfectly decode a variety of sentences outside of the training set. While error analyses suggest that decoding depends on motor processes, the analysis of typographical errors suggests that it also involves higher-level cognitive factors. Overall, these results narrow the gap between invasive and non-invasive methods and thus open the path for developing safe brain-computer interfaces for non-communicating patients.
研究动机与目标
- 促使非侵入式脑-机接口(BCIs)在无需神经外科手术的情况下恢复沟通能力。
- 开发一个深度学习架构,能够在打字过程中解码来自 MEG/EEG 的句子生成。
- 量化 MEG 与 EEG 的性能并分析影响解码准确性的因素。
提出的方法
- 提出 Brain2Qwerty,一个三阶段模型:卷积模块(500 ms M/EEG 窗)+ Transformer 模块(句子级)+ 预训练语言模型用于输出纠错。
- 使用一个 4 层的 transformer,2 个注意头,并对 29 个按键进行线性投影到 logits。
- 应用一个 9-gram 字符级语言模型(KenLM),结合束搜索对 transformer 输出进行规则化(LM 权重可调)。
- 在没有权重的交叉熵下联合训练卷积和 Transformer 模块,跨受试者大约 400M 个参数。
- 使用字符错误率(CER)和手部错误率(HER)在来自 35 名健康参与者的 EEG 和 MEG 数据上进行评估。
实验结果
研究问题
- RQ1非侵入性 M/EEG 信号是否可用于在真实任务中解码打字过程的句子生成?
- RQ2MEG 与 EEG 在从脑活动解码文本方面有何差异?
- RQ3引入 transformer 和语言模型是否在字符级解码上优于基线?
- RQ4哪些脑部和任务特征会影响解码错误与准确性(如键盘布局、打字行为、单词频率等)?
主要发现
- Brain2Qwerty 在 MEG 上的 CER 为 32 ± 0.6%,在 EEG 上为 67 ± 1.5%(平均值)。
- 最佳 MEG 受试者的 CER 为 19%,某些句子被完美解码。
- Brain2Qwerty 在 MEG 和 EEG 上均显著优于基线方法(EEGNet 和线性模型)。
- 消融实验显示 Transformer 和语言模型在 CER 上比仅卷积模块有显著提升。
- 对频繁单词和频繁字符的解码效果更好;未在词汇表中的单词也可解码但 CER 更高。
- 混淆模式与键盘布局一致,提示解码中存在基于运动的表征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。