QUICK REVIEW

[论文解读] State-of-the-art Speech Recognition using EEG and Towards Decoding of Speech Spectrum From EEG

Gautam Krishna, Yan Han|arXiv (Cornell University)|Aug 14, 2019

Blind Source Separation Techniques参考文献 24被引用 34

一句话总结

本文展示了利用端到端ASR模型从脑电图（EEG）进行连续带噪语音识别，并在多种实验条件下研究了通过LSTM和基于GAN的方法从EEG解码语谱（Speech spectra）的过程。

ABSTRACT

In this paper we first demonstrate continuous noisy speech recognition using electroencephalography (EEG) signals on English vocabulary using different types of state of the art end-to-end automatic speech recognition (ASR) models, we further provide results obtained using EEG data recorded under different experimental conditions. We finally demonstrate decoding of speech spectrum from EEG signals using a long short term memory (LSTM) based regression model and Generative Adversarial Network (GAN) based model. Our results demonstrate the feasibility of using EEG signals for continuous noisy speech recognition under different experimental conditions and we provide preliminary results for synthesis of speech from EEG features.

研究动机与目标

为无法说话的患者提供非侵入式EEG语音识别的动机，并在嘈杂条件下评估可行性。
开发并比较将EEG特征映射到文本的端到端ASR模型（CTC、基于注意力的编码器-解码器、RNN-T）。
引入两组新的EEG特征集并与现有特征进行比较，以实现鲁棒识别。
提供通过从EEG数据解码MFCC来合成语音的初步方法（听觉条件和说话条件）。

提出的方法

使用三种端到端ASR体系结构（CTL：带GRU编码器的CTC、基于注意力的RNN编码器-解码器、RNN-T）将EEG特征映射到文本。
提取三组EEG特征集（集合1：均方根RMS、过零率ZCR、移动平均、峰度、谱熵；集合2：STFT幅度和小波谱熵；集合3：δ/θ/α/β谱熵、赫斯特指数、Petrosian分形维数）。
对EEG特征进行核PCA（多项式核，度数为3）的非线性降维；并针对每组特征集调优到最优分量数量。
在三个条件不同的数据库上进行训练与评估：听觉条件（listen）、说话条件（spoken）和结合条件（listen+spoken）的EEG数据。
使用基于LSTM的回归以及基于GAN/WGAN的生成模型，对listen的MFCC进行解码自listen EEG，以及对spoken的MFCC进行解码自spoken EEG。
在特征集、模型和条件下，使用CER、WER、RMSE和Mel-CD等指标比较性能。

实验结果

研究问题

RQ1EEG特征是否能够使端到端的最先进ASR模型在连续带噪条件下实现识别？
RQ2不同EEG特征集和实验条件（听觉、说话、两者）如何影响识别性能？
RQ3是否可行使用LSTM回归或基于GAN的模型从EEG解码基于MFCC的语音特征，哪种方法表现最好？
RQ4在嘈杂条件下，基于EEG数据训练的端到端模型在错误率方面是否优于传统方法？
RQ5从解码特征中进行EEG语音合成的潜力（初步结果与局限性）？

主要发现

在嘈杂条件下，端到端EEG到文本的识别是可行的，对较小语料库的错误率较低；在该设置下，带注意力的模型和CTC通常优于RNN-T。
在EEG特征中，集合1和集合3的性能相当，而集合2在较大语料库中往往具有更高的错误率。
在解码实验中，基于LSTM的回归比GAN或WGAN在预测listen/spMFCC和spoken/spMFCC方面更准确（更低的RMSE和MCD）。
GAN/WGAN显示出更不稳定的训练，在listen/spMFCC或spoken/spMFCC的跨特征集解码中并未始终优于LSTM回归。
在具有listen和spoken条件的数据集上，CTC和基于注意力的模型在EEG-ASR方面表现优于RNN-T。
该研究提供了EEG解码后语音合成的初步结果，基于Griffin-Lim重建的潜力并强调需要更大规模的数据集和模型改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。