QUICK REVIEW

[論文レビュー] State-of-the-art Speech Recognition using EEG and Towards Decoding of Speech Spectrum From EEG

Gautam Krishna, Yan Han|arXiv (Cornell University)|Aug 14, 2019

Blind Source Separation Techniques参考文献 24被引用数 34

ひとこと要約

本論文は、エンドツーエンドのASRモデルを用いたEEGによる連続的なノイズ付き音声認識を実証し、LSTMおよびGANベースのアプローチを用いたEEGからの音声スペクトルのデコードを、複数の実験条件下で調査する。

ABSTRACT

In this paper we first demonstrate continuous noisy speech recognition using electroencephalography (EEG) signals on English vocabulary using different types of state of the art end-to-end automatic speech recognition (ASR) models, we further provide results obtained using EEG data recorded under different experimental conditions. We finally demonstrate decoding of speech spectrum from EEG signals using a long short term memory (LSTM) based regression model and Generative Adversarial Network (GAN) based model. Our results demonstrate the feasibility of using EEG signals for continuous noisy speech recognition under different experimental conditions and we provide preliminary results for synthesis of speech from EEG features.

研究の動機と目的

話す能力の障害を持つ人々のための非侵襲的なEEGベース音声認識を動機づけ、ノイズ条件下での実現可能性を評価する。
EEG特徴をテキストへ写像するエンドツーエンドASRモデル（CTC、アテンション型エンコーダ-デコーダ、RNN-T）を開発・比較する。
新たに2つのEEG特徴セットを導入し、堅牢な認識のため既存特徴と比較する。
EEGデータからMFCCをデコードして音声を合成する予備的アプローチを提供する（リッスン条件とスピーク条件）。

提案手法

EEG特徴をテキストへ写像するために、GRUエンコーダを用いたCTC、アテンション型RNNエンコーダ-デコーダ、RNN-T の3つのエンドツーエンドASRアーキテクチャを使用する。
3つのEEG特徴セットを抽出する（セット1: RMS, ZCR, 移動平均, 尖度, スペクトルエントロピー; セット2: STFTの振幅とウェーブレットスペクトルエントロピーの値; セット3: δ/θ/α/βスペクトルエントロピー、ハースト指数、ペトロシアンフラクタル次元）。
非線形次元圧縮のためにカーネルPCA（多項式カーネル、次数3）を適用し、特徴セットごとに最適な成分数へ調整する。
異なる条件（リッスン、スピーク、リッスン＋スピーク）を持つ3つのデータベースで訓練・評価する。
リッスンEEGからリッスンMFCCを、スピークEEGからスピークMFCCをデコードするために、LSTMベースの回帰とGAN/WGANベースの生成モデルを用いる。
CER、WER、RMSE、Mel-CDを指標として、特徴セット、モデル、条件間で性能を比較する。

実験結果

リサーチクエスチョン

RQ1EEG特徴が、最先端のエンドツーエンドASRモデルを用いた連続的なノイズ付き音声認識を可能にするか。
RQ2異なるEEG特徴セットと実験条件（リッスン、スピーク、両方）は認識性能にどう影響するか。
RQ3LSTM回帰またはGANベースのモデルを用いてEEGからMFCCベースの音声特徴をデコードすることは実現可能か、どのアプローチが最も良い性能を発揮するか。
RQ4ノイズ条件下でEEGデータを用いて訓練したエンドツーエンドモデルは、従来のアプローチより誤り率の点で優れているか。
RQ5デコードされた特徴からのEEGベース音声合成の可能性（初期結果と限界）はどうか。

主な発見

ノイズ条件下でエンドツーエンドのEEG→テキスト認識は、小規模コーパスでは誤り率が低く実現可能であり、この設定ではアテンション型とCTCモデルが一般にRNN-Tよりも良好な性能を示す。
EEG特徴の中で、セット1とセット3が同等の性能を示し、セット2は大規模コーパスでより高い誤り率を示す傾向があった。
デコード実験では、LSTMベースの回帰がGANまたはWGANよりもEEGからリッスン/スピークMFCCをより正確に予測した（RMSEおよびMCDが低い）。
GAN/WGANはトレーニングが不安定で、特徴セット全体でリッスン/spMFCCまたはスピーク/spMFCCデコードにおいてLSTM回帰を一貫して上回らなかった。
リッスンとスピークの条件を含むデータセットでは、EEGベースのASRにおいてCTCおよびアテンション型モデルがRNN-Tより良い性能を示した。
Griffin-Lim再構成の可能性を用いたEEGからの音声合成の予備的結果を提供し、より大規模データセットとモデルの改善の必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。