Skip to main content
QUICK REVIEW

[논문 리뷰] Quaternion Neural Networks for Multi-channel Distant Speech Recognition

Xinchi Qiu, Titouan Parcollet|arXiv (Cornell University)|2020. 01. 01.
Speech and Audio Processing참고 문헌 36인용 수 1
한 줄 요약

이 논문은 다중 마이크 신호를 동시에 처리하여 상호 및 내부 채널 간의 의존성을 더 효과적으로 포착할 수 있도록 허수수학을 활용하여 다중 채널 원거리 음성 인식을 모델링하기 위해 허수 장단기 기억망(QLSTM)을 제안한다. QLSTM는 동일한 파arameter 수를 가진 실수값 LSTMs보다 8% 상대적 WER 향상을 달성하였고, TIMIT 및 DIRHA 데이터셋에서 빔포밍 기반 기법보다 15% 향상된 성능을 보였다.

ABSTRACT

Despite the significant progress in automatic speech recognition (ASR), distant ASR remains challenging due to noise and reverberation. A common approach to mitigate this issue consists of equipping the recording devices with multiple microphones that capture the acoustic scene from different perspectives. These multi-channel audio recordings contain specific internal relations between each signal. In this paper, we propose to capture these inter- and intra- structural dependencies with quaternion neural networks, which can jointly process multiple signals as whole quaternion entities. The quaternion algebra replaces the standard dot product with the Hamilton one, thus offering a simple and elegant way to model dependencies between elements. The quaternion layers are then coupled with a recurrent neural network, which can learn long-term dependencies in the time domain. We show that a quaternion long-short term memory neural network (QLSTM), trained on the concatenated multi-channel speech signals, outperforms equivalent real-valued LSTM on two different tasks of multi-channel distant speech recognition.

연구 동기 및 목표

  • 다중 마이크 어레이를 사용한 원거리 음성 인식에서의 노이즈 및 반향 문제를 해결하기 위해.
  • 기존의 딥 러닝 접근 방식보다 더 효과적으로 잠재적인 채널 간 및 내부 채널 간 신호 의존성을 모델링함으로써 내성적 강건성을 향상시키기 위해.
  • 다중 채널 오디오 신호의 공동 처리를 위한 인덕티브 바이어스로서 허수수학의 활용을 탐색하기 위해.
  • QLSTM가 동일한 파arameter 수를 가진 실수값 LSTMs 및 빔포밍 기반 기법보다 다중 채널 ASR에서 뛰어난 성능을 보임을 입증하기 위해.

제안 방법

  • 각 마이크의 특징 벡터를 네 개의 허수 성분(실수부 및 세 개의 허수부) 중 하나에 매핑하여 다중 채널 음성 특징을 허수로 표현한다.
  • 표준 내적 대신 해밀턴乘을 사용하여 채널 간 파라미터 공유 및 공동 모델링을 가능하게 한다.
  • 장단기 기억망(LSTM)과 허수층을 통합하여 시간적 의존성과 채널 간 관계를 동시에 학습한다.
  • 명시적인 빔포밍 또는 신호 처리 모듈을 피하기 위해 다중 채널 특징을 연결하여 QLSTM를 엔드 투 엔드로 훈련한다.
  • 네트워크 내에서 대수적 일관성을 유지하기 위해 총공, 노름, 해밀턴乘 등의 허수 전용 연산을 사용한다.
  • MFCC 및 FBANK 특징을 사용하여 시뮬레이션된(TIMIT) 및 실제 환경(DIRHA) 원거리 음성 인식 작업에 모델을 적용한다.

실험 결과

연구 질문

  • RQ1허수 신경망은 다중 채널 음성 인식에서 채널 간 및 내부 채널 간 의존성을 효과적으로 모델링할 수 있는가?
  • RQ2노이즈 및 반향 조건 하에서 QLSTM 아키텍처는 동일한 실수값 LSTMs보다 원거리 음성 인식에서 뛰어난 성능을 보일 수 있는가?
  • RQ3다중 마이크 ASR에서 전통적인 빔포밍 기법과 비교해 QLSTM의 성능은 어떠한가?
  • RQ4MFCC 및 FBANK과 같은 다양한 음성 특징 표현 방식에서 QLSTM의 성능 향상은 일관된가?

주요 결과

  • 시뮬레이션된 TIMIT 데이터셋에서 QLSTM는 빔포밍 기반 기준 대비 15% 상대적 WER 향상을 달성하였다.
  • 동일한 데이터셋에서 QLSTM는 동일한 파arameter 수를 가진 실수값 LSTM 대비 8% 상대적 WER 향상을 보였다.
  • 실제 환경의 DIRHA 데이터셋에서 QLSTM는 MFCC 특징을 사용할 경우 WER 29.8%를 기록했고, FBANK 특징을 사용할 경우 29.7%를 기록하여 실수값 LSTM(각각 32.7% 및 31.6%)을 능가하였다.
  • QLSTM는 다양한 음성 특징 표현 방식에서 일관된 성능 향상을 보이며, 특정 입력 표현 방식을 초월한 일반화 능력을 보였다.
  • 단일 채널 QLSTM 모델은 단일 채널 LSTM와 유사한 성능를 보이며, 성능 향상 요인이 허수 구조 자체가 아니라 다중 채널 모델링에 기인함을 확인하였다.
  • 실수값 및 시뮬레이션된 테스트 세트 간의 성능 격차는 QLSTM에서 더 크며, 이는 더 높은 총 오류율에도 불구하고 실제 환경의 교란 요소에 대해 강건함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.