QUICK REVIEW

[논문 리뷰] Quaternion Neural Networks for Multi-channel Distant Speech Recognition

Xinchi Qiu, Titouan Parcollet|arXiv (Cornell University)|2020. 01. 01.

Speech and Audio Processing참고 문헌 36인용 수 1

한 줄 요약

이 논문은 다중 마이크 신호를 동시에 처리하여 상호 및 내부 채널 간의 의존성을 더 효과적으로 포착할 수 있도록 허수수학을 활용하여 다중 채널 원거리 음성 인식을 모델링하기 위해 허수 장단기 기억망(QLSTM)을 제안한다. QLSTM는 동일한 파arameter 수를 가진 실수값 LSTMs보다 8% 상대적 WER 향상을 달성하였고, TIMIT 및 DIRHA 데이터셋에서 빔포밍 기반 기법보다 15% 향상된 성능을 보였다.

ABSTRACT

Despite the significant progress in automatic speech recognition (ASR), distant ASR remains challenging due to noise and reverberation. A common approach to mitigate this issue consists of equipping the recording devices with multiple microphones that capture the acoustic scene from different perspectives. These multi-channel audio recordings contain specific internal relations between each signal. In this paper, we propose to capture these inter- and intra- structural dependencies with quaternion neural networks, which can jointly process multiple signals as whole quaternion entities. The quaternion algebra replaces the standard dot product with the Hamilton one, thus offering a simple and elegant way to model dependencies between elements. The quaternion layers are then coupled with a recurrent neural network, which can learn long-term dependencies in the time domain. We show that a quaternion long-short term memory neural network (QLSTM), trained on the concatenated multi-channel speech signals, outperforms equivalent real-valued LSTM on two different tasks of multi-channel distant speech recognition.

연구 동기 및 목표

다중 마이크 어레이를 사용한 원거리 음성 인식에서의 노이즈 및 반향 문제를 해결하기 위해.
기존의 딥 러닝 접근 방식보다 더 효과적으로 잠재적인 채널 간 및 내부 채널 간 신호 의존성을 모델링함으로써 내성적 강건성을 향상시키기 위해.
다중 채널 오디오 신호의 공동 처리를 위한 인덕티브 바이어스로서 허수수학의 활용을 탐색하기 위해.
QLSTM가 동일한 파arameter 수를 가진 실수값 LSTMs 및 빔포밍 기반 기법보다 다중 채널 ASR에서 뛰어난 성능을 보임을 입증하기 위해.

제안 방법

각 마이크의 특징 벡터를 네 개의 허수 성분(실수부 및 세 개의 허수부) 중 하나에 매핑하여 다중 채널 음성 특징을 허수로 표현한다.
표준 내적 대신 해밀턴乘을 사용하여 채널 간 파라미터 공유 및 공동 모델링을 가능하게 한다.
장단기 기억망(LSTM)과 허수층을 통합하여 시간적 의존성과 채널 간 관계를 동시에 학습한다.
명시적인 빔포밍 또는 신호 처리 모듈을 피하기 위해 다중 채널 특징을 연결하여 QLSTM를 엔드 투 엔드로 훈련한다.
네트워크 내에서 대수적 일관성을 유지하기 위해 총공, 노름, 해밀턴乘 등의 허수 전용 연산을 사용한다.
MFCC 및 FBANK 특징을 사용하여 시뮬레이션된(TIMIT) 및 실제 환경(DIRHA) 원거리 음성 인식 작업에 모델을 적용한다.

실험 결과

연구 질문

RQ1허수 신경망은 다중 채널 음성 인식에서 채널 간 및 내부 채널 간 의존성을 효과적으로 모델링할 수 있는가?
RQ2노이즈 및 반향 조건 하에서 QLSTM 아키텍처는 동일한 실수값 LSTMs보다 원거리 음성 인식에서 뛰어난 성능을 보일 수 있는가?
RQ3다중 마이크 ASR에서 전통적인 빔포밍 기법과 비교해 QLSTM의 성능은 어떠한가?
RQ4MFCC 및 FBANK과 같은 다양한 음성 특징 표현 방식에서 QLSTM의 성능 향상은 일관된가?

주요 결과

시뮬레이션된 TIMIT 데이터셋에서 QLSTM는 빔포밍 기반 기준 대비 15% 상대적 WER 향상을 달성하였다.
동일한 데이터셋에서 QLSTM는 동일한 파arameter 수를 가진 실수값 LSTM 대비 8% 상대적 WER 향상을 보였다.
실제 환경의 DIRHA 데이터셋에서 QLSTM는 MFCC 특징을 사용할 경우 WER 29.8%를 기록했고, FBANK 특징을 사용할 경우 29.7%를 기록하여 실수값 LSTM(각각 32.7% 및 31.6%)을 능가하였다.
QLSTM는 다양한 음성 특징 표현 방식에서 일관된 성능 향상을 보이며, 특정 입력 표현 방식을 초월한 일반화 능력을 보였다.
단일 채널 QLSTM 모델은 단일 채널 LSTM와 유사한 성능를 보이며, 성능 향상 요인이 허수 구조 자체가 아니라 다중 채널 모델링에 기인함을 확인하였다.
실수값 및 시뮬레이션된 테스트 세트 간의 성능 격차는 QLSTM에서 더 크며, 이는 더 높은 총 오류율에도 불구하고 실제 환경의 교란 요소에 대해 강건함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.