Skip to main content
QUICK REVIEW

[論文レビュー] Brain-to-Text Decoding: A Non-invasive Approach via Typing

J P Lévy, Mingfang Zhang|arXiv (Cornell University)|Feb 18, 2025
Cognitive Computing and Networks被引用数 4
ひとこと要約

この論文は Brain2Qwerty を提案する。非侵襲的な M/EEG 脳活動をタイピングタスク中に文字入力へ翻訳する三段階ニューラルデコーダで、MEG CER は 32%(ベスト 19%)、EEG CER は 67% を達成。

ABSTRACT

Modern neuroprostheses can now restore communication in patients who have lost the ability to speak or move. However, these invasive devices entail risks inherent to neurosurgery. Here, we introduce a non-invasive method to decode the production of sentences from brain activity and demonstrate its efficacy in a cohort of 35 healthy volunteers. For this, we present Brain2Qwerty, a new deep learning architecture trained to decode sentences from either electro- (EEG) or magneto-encephalography (MEG), while participants typed briefly memorized sentences on a QWERTY keyboard. With MEG, Brain2Qwerty reaches, on average, a character-error-rate (CER) of 32% and substantially outperforms EEG (CER: 67%). For the best participants, the model achieves a CER of 19%, and can perfectly decode a variety of sentences outside of the training set. While error analyses suggest that decoding depends on motor processes, the analysis of typographical errors suggests that it also involves higher-level cognitive factors. Overall, these results narrow the gap between invasive and non-invasive methods and thus open the path for developing safe brain-computer interfaces for non-communicating patients.

研究の動機と目的

  • Neurosurgery なしでコミュニケーションを回復するための非侵襲的 BCI の動機付け。
  • MEG/EEG からの文生成をタイピング中にデコードする深層学習アーキテクチャの開発。
  • MEG および EEG に across の性能を定量化し、デコード精度を左右する要因を分析。

提案手法

  • Brain2Qwerty を紹介する三段階モデル:Convolutional Module(500 ms の M/EEG ウィンドウ)+ Transformer Module(文レベル)+ 出力補正のための事前学習済み言語モデル。
  • 2つのアテンションヘッドと 29 キーのロジットへの線形射影を持つ 4 層 Transformer を使用。
  • ビームサーチを用いた 9-gram 文字レベル言語モデル(KenLM)を適用し、Transformer 出力を正規化(LM 重みを調整)。
  • Convolutional モジュールと Transformer モジュールを、個体間のウェイトなしクロスエントロピーで共同訓練(約 400M パラメータ)。
  • EEG および MEG データから 35 名の健常被験者を対象に、CER(Character Error Rate)と HER(Hand Error Rate)で評価。

実験結果

リサーチクエスチョン

  • RQ1非侵襲的な M/EEG 信号を用いて、現実的なタスクのタイピング中に文生成をデコードできるか。
  • RQ2MEG と EEG は脳活動からのテキストデコードにおいてどう比較されるか。
  • RQ3Transformer と言語モデルを組み込むことは、基準アルゴリズムと比べて文字レベルのデコードを改善するか。
  • RQ4デコードエラーと精度に影響を与える脳およびタスクの特徴は何か(例:キーボード配列、タイピング行動、語彙頻度)を。

主な発見

  • Brain2Qwerty は MEG で CER が 32 ± 0.6%、EEG で 67 ± 1.5% を平均で達成。
  • 最良の MEG 被験者は CER が 19% に達し、いくつかの文は完全にデコードされる。
  • Brain2Qwerty は EEGNet および線形モデルと比較して MEG および EEG の両方で大幅に優れている。
  • アブレーションにより、Transformer と言語モデルが畳み込みモジュールのみよりも CER を改善することが示された。
  • 頻出語と頻出文字に対してデコード性能が高い。語彙外語はデコード可能だが CER が高くなる。
  • 混同パターンはキーボード配列と一致し、デコードに運動ベースの表現が関与していることを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。