QUICK REVIEW

[논문 리뷰] Neural networks based EEG-Speech Models

Pengfei Sun, Jun Qin|arXiv (Cornell University)|2016. 12. 16.

EEG and Brain-Computer Interfaces참고 문헌 20인용 수 27

한 줄 요약

이 논문은 상상된 뇌파 신호를 음소로 매핑하는 엔드 투 엔드 신경망 프레임워크를 제안한다. 이 프레임워크는 세 가지 모델인 NES-I, NES-B, NES-G를 사용하여 이를 달성한다. 언어 모델 기반 EEG 특징 추출, 깊이 학습을 위한 제한된 볼츠만 기계(RBMs), 그리고 말하는 EEG를 편향 또는 게이트 신호로 융합함으로써, NES-G 모델은 이중 및 다중 클래스 음소 분류 작업에서 SVM과 딥 베이지언 네트워크(DBNs)를 능가하는 최신 기술 수준의 성능을 달성하였으며, 11개의 음소에서 전체 정확도가 41.5%에 이른다.

ABSTRACT

In this paper, we propose an end-to-end neural network (NN) based EEG-speech (NES) modeling framework, in which three network structures are developed to map imagined EEG signals to phonemes. The proposed NES models incorporate a language model based EEG feature extraction layer, an acoustic feature mapping layer, and a restricted Boltzmann machine (RBM) based the feature learning layer. The NES models can jointly realize the representation of multichannel EEG signals and the projection of acoustic speech signals. Among three proposed NES models, two augmented networks utilize spoken EEG signals as either bias or gate information to strengthen the feature learning and translation of imagined EEG signals. Experimental results show that all three proposed NES models outperform the baseline support vector machine (SVM) method on EEG-speech classification. With respect to binary classification, our approach achieves comparable results relative to deep believe network approach.

연구 동기 및 목표

기존의 특징 추출 방법의 한계를 극복하고 상상된 EEG 신호를 음소로 매핑하는 엔드 투 엔드 신경망 프레임워크를 개발하는 것.
다중 채널 EEG 신호와 음성 특징을 다중 모odal 융합을 통해 공동으로 모델링하여 EEG-음성 분류 성능을 향상시키는 것.
잡음과 아티팩트 간섭을 줄이기 위해 말하는 EEG 신호를 조건부 요소(편향 또는 게이트)로 통합하여 상상된 EEG의 특징 표현을 향상시키는 것.
RBMs와 엔드 투 엔드 학습과 같은 딥 러닝 기법을 활용하여 EEG 기반 음성 인식에서 뛰어난 성능을 달성하는 것.
EEG와 음성 특징의 공동 학습이 얕은 특징 기반의 SVM 방법보다 더 나은 음소 분류 성능을 이끌어내는지 입증하는 것.

제안 방법

NES 프레임워크는 다중 채널 EEG의 상관관계를 모델링하고 다중 채널 EEG에서 깊은 표현을 추출하기 위해 언어 모델 기반 EEG 특징 추출 레이어를 사용한다.
제한된 볼츠만 기계(RBM) 레이어는 비지도 사전 훈련과 특징 학습을 위해 사용되며, EEG 아티팩트에 대한 강건성을 향상시킨다.
음성 투영 레이어는 학습된 EEG 특징을 공유된 음성 특징 공간으로 매핑하여 다중 모달 융합을 가능하게 한다.
세 가지 모델이 개발되었으며, 각각 NES-I(상상된 EEG 전용), NES-B(말하는 EEG를 편향으로 사용), NES-G(말하는 EEG를 게이트로 사용)이며, 후자는 개선된 학습을 위해 인자화된 RBM 훈련을 사용한다.
모델들은 지도 및 비지도 목적함수를 함께 사용하여 엔드 투 엔드로 훈련되며, 분류를 위해 소프트맥스 레이어가 추가된다.
프레임워크는 14명의 참가자와 11개의 음소 카테고리로 구성된 KARA ONE 데이터셋을 사용하며, 특징으로는 평균, 분산, 스펙트럼 엔트로피 및 도함수를 포함한다.

실험 결과

연구 질문

RQ1엔드 투 엔드 신경망 프레임워크가 표현 학습을 향상시키면서 상상된 EEG 신호를 음소로 효과적으로 매핑할 수 있는가?
RQ2말하는 EEG 신호를 편향 또는 게이트 정보로 통합함으로써 상상된 EEG의 특징 학습 및 분류 정확도가 향상되는가?
RQ3제안된 NES 모델은 전통적인 SVM 및 딥 베이지언 네트워크 기준선과 비교하여 EEG-음성 분류에서 어떻게 성능을 내는가?
RQ4EEG와 음성 특징의 공동 표현은 음소 수준 작업에서 분류 성능을 얼마나 향상시키는가?
RQ5제안된 모델은 음성의 외곽선을 복구하고 다중 클래스 음소 인식에서 높은 정확도를 달성할 수 있는가?

주요 결과

NES-G 모델은 11개의 음소에서 전체 정확도가 41.5%로 가장 높았으며, SVM 다중 기준선을 크게 능가하였다.
음소 /uw/의 경우 NES-G 모델은 58%의 정확도를 기록하였고, SVM 다중 기준선는 24%에 머물렀다.
모든 음소 카테고리에서 NES-I 및 NES-B를 모두 초월하여, 말하는 EEG를 게이트 신호로 사용하는 것이 효과적임을 입증하였다.
이중 분류에서 NES-G 모델은 딥 베이지언 네트워크와 유사한 성능을 보였으며, 강력한 일반화 능력을 보였다.
혼동 행렬 분석 결과, 잘못 분류된 음소들은 음성적으로 유사한 경우(예: /uw/와 /m/)였으며, 이는 더 다양한 훈련 데이터로 성능 향상을 이룰 수 있음을 시사한다.
RBM를 통한 깊이 학습 및 언어 모델 기반 EEG 특징 추출은 기존의 얕은 특징(평균, 분산, 엔트로피 등)에 비해 표현 능력을 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.