[논문 리뷰] State-of-the-art Speech Recognition using EEG and Towards Decoding of Speech Spectrum From EEG
논문은 엔드투엔드 ASR 모델을 사용한 EEG 기반의 연속적 노이즈 음성 인식과 LSTM 및 GAN 기반 접근법으로 EEG에서 음성 스펙트럼의 디코딩을 여러 실험 조건에서 조사한다.
In this paper we first demonstrate continuous noisy speech recognition using electroencephalography (EEG) signals on English vocabulary using different types of state of the art end-to-end automatic speech recognition (ASR) models, we further provide results obtained using EEG data recorded under different experimental conditions. We finally demonstrate decoding of speech spectrum from EEG signals using a long short term memory (LSTM) based regression model and Generative Adversarial Network (GAN) based model. Our results demonstrate the feasibility of using EEG signals for continuous noisy speech recognition under different experimental conditions and we provide preliminary results for synthesis of speech from EEG features.
연구 동기 및 목표
- 말하기 장애가 있는 사람들을 위한 비침습적 EEG 기반 음성 인식의 동기를 부여하고, 소음 조건에서의 가능성을 평가한다.
- EEG 특징을 텍스트로 매핑하는 엔드투엔드 ASR 모델(CTC, 주의(attention)-기반 인코더-디코더, RNN-T)을 개발하고 비교한다.
- 두 가지 새로운 EEG 특징 집합을 도입하고 강인한 인식 성능을 위해 기존 특징들과 비교한다.
- EEG 데이터에서 MFCC를 디코딩하여 음성을 합성하는 초기 접근법을 제공한다(듣기 및 말하기 조건).
제안 방법
- EEG 특징을 텍스트로 매핑하기 위해 GRU 인코더를 갖는 CTC, 주의 기반 RNN 인코더-디코더, RNN-T의 세 가지 엔드투엔드 ASR 아키텍처를 사용한다.
- 세 가지 EEG 특징 집합을 추출한다(세트 1: RMS, ZCR, 이동평균, 첨도, 스펙트럼 엔트로피; 세트 2: STFT 진폭 및 웨이브렛 스펙트럼 엔트로피; 세트 3: 델타/세타/알파/베타 스펙트럼 엔트로피, 허스트 지수, 페트로시안 프랙탈 차원).
- 비선형 차원 축소를 위해 커널 PCA(다항 커널, 차수 3)를 적용하고, 특징 세트마다 최적 컴포넌트 수를 조정한다.
- 다양한 조건(듣기, 말하기, 결합(듣기+말하기))의 EEG 데이터를 가진 세 데이터베이스에서 학습 및 평가한다.
- 듣기 EEG로부터 듣기 MFCC를 디코딩하고 말하기 EEG로부터 말하기 MFCC를 디코딩하기 위해 LSTM 기반 회귀 및 GAN/WGAN 기반 생성 모델을 사용한다.
- CER, WER, RMSE, Mel-CD를 지표로 특징 세트, 모델, 조건 간 성능을 비교한다.
실험 결과
연구 질문
- RQ1최신 엔드투엔드 ASR 모델로 EEG 특징이 연속적이고 노이즈가 있는 음성 인식을 가능하게 할까?
- RQ2다양한 EEG 특징 세트와 실험 조건(듣기, 말하기, 둘 다)이 인식 성능에 어떤 영향을 미치는가?
- RQ3LSTM 회귀나 GAN 기반 모델을 사용하여 EEG로부터 MFCC 기반 음성 특징을 디코딩하는 것이 가능하며, 어떤 접근법이 가장 우수한가?
- RQ4노이즈 조건에서 EEG 데이터로 학습된 엔드투엔드 모델이 전통적 접근법보다 오차율 측면에서 우수한가?
- RQ5디코딩된 특징에서 EEG 기반 음성 합성의 잠재력은 무엇이며(초기 결과와 한계 포함)?
주요 결과
- 노이즈 조건에서 엔드투엔드 EEG-에서-텍스트 인식은 소형 코퍼스에서 더 낮은 오류율로 가능하며, 이 설정에서 주의(attention) 및 CTC 모델이 일반적으로 RNN-T보다 더 우수하게 수행된다.
- EEG 특징 중 세트 1과 세트 3이 비슷한 성능을 보였고, 세트 2는 더 큰 코퍼스에서 오차율이 더 높은 경향이었다.
- LSTM 기반 회귀가 GAN 또는 WGAN보다 EEG로부터 듣기/말하기 MFCC를 더 정확하게 예측한다(낮은 RMSE 및 MCD).
- GAN/WGAN은 학습이 더 불안정했고 특징 세트에 걸쳐 listen/spMFCC 또는 spoken/spMFCC 디코딩에서 LSTM 회귀를 일관되게 능가하지 못했다.
- 듣기와 말하기 조건이 있는 데이터 세트에서 EEG 기반 ASR에 대해 CTC 및 주의 기반 모델이 RNN-T보다 더 나은 성능을 보였다.
- 본 연구는 Griffin-Lim 재구성 가능성을 이용한 EEG로부터의 음성 합성에 대한 예비 결과를 제공하며 더 큰 데이터 세트와 모델 개선의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.