Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning for Distant Speech Recognition

Mirco Ravanelli|arXiv (Cornell University)|2017. 01. 01.
Speech and Audio Processing인용 수 6
한 줄 요약

이 학위논문은 잡음과 반향 조건에서 원거리 음성인식(DSR)의 강건성을 향상시키기 위해 새로운 딥러닝 기법을 제안한다. 실제 데이터 시뮬레이션, DNN 내 비대칭적 문맥 모델링, 그리고 공동 배치 정규화와 기울기 가중치를 활용해 다수의 DNN을 융합하는 협동적 '딥뉴럴네트워크의 네트워크' 아키텍처를 도입하여 정확도를 향상시키며, 실제 및 시뮬레이션된 DSR 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Deep learning is an emerging technology that is considered one of the most promising directions for reaching higher levels of artificial intelligence. Among the other achievements, building computers that understand speech represents a crucial leap towards intelligent machines. Despite the great efforts of the past decades, however, a natural and robust human-machine speech interaction still appears to be out of reach, especially when users interact with a distant microphone in noisy and reverberant environments. The latter disturbances severely hamper the intelligibility of a speech signal, making Distant Speech Recognition (DSR) one of the major open challenges in the field. This thesis addresses the latter scenario and proposes some novel techniques, architectures, and algorithms to improve the robustness of distant-talking acoustic models. We first elaborate on methodologies for realistic data contamination, with a particular emphasis on DNN training with simulated data. We then investigate on approaches for better exploiting speech contexts, proposing some original methodologies for both feed-forward and recurrent neural networks. Lastly, inspired by the idea that cooperation across different DNNs could be the key for counteracting the harmful effects of noise and reverberation, we propose a novel deep learning paradigm called network of deep neural networks. The analysis of the original concepts were based on extensive experimental validations conducted on both real and simulated data, considering different corpora, microphone configurations, environments, noisy conditions, and ASR tasks.

연구 동기 및 목표

  • 잡음과 반향 조건에서 원거리 발화 상황에서의 강건한 자동 음성인식(ASR) 문제를 해결한다.
  • 데이터 오염 기법의 현실성 향상을 통해 시뮬레이션된 데이터로 훈련된 DNN 음성 모델의 일반화 성능을 향상시킨다.
  • 비대칭적 문맥 윈도우와 수정된 RNN 아키텍처를 통해 시간적 음성 문맥을 향상시킨다.
  • 다수의 DNN를 공동 최적화하여 강건성을 향상시키는 협동적 딥러닝 프레임워크—'딥뉴럴네트워크의 네트워크'(NoDNN)—를 개발한다.
  • 다양한 코퍼스, 마이크 설정, 잡음 환경에서 제안된 방법을 검증하여 실제 적용 가능성 확보

제안 방법

  • DNN 훈련에서 데이터 오염의 현실성 향상을 위해 실시간 실내 인력 응답(RIR)을 시뮬레이션하기 위한 방향성 이미지 방법을 제안한다.
  • 과거 문맥보다 미래 문맥을 우선시함으로써 장기적 음성 종속성을 더 잘 모델링하기 위해 피드포워드 DNN에 비대칭적 문맥 윈도우를 도입한다.
  • 재설정 게이트를 제거하고, ReLU 활성화 함수를 적용하며, 배치 정규화를 적용하여 훈련 안정성과 성능을 향상시키기 위해 게이트형 순환 단위(GRUs)를 개선한다.
  • 다양한 DNN들이 공동 배치 정규화와 기울기 가중치를 공유하여 특징 표현과 강건성을 향상시키는 '딥뉴럴네트워크의 네트워크'(NoDNN) 프레임워크를 개발한다.
  • 다수의 DNN 간 공동 훈련을 통해 배치 정규화를 통합하여 기울기 안정성을 높이고, 잡음 및 반향 조건에서의 일반화 성능을 향상시킨다.
  • CHiME, REVERB 등 다양한 코퍼스, 마이크 구성, 잡음 조건에서 실재 및 시뮬레이션된 데이터를 대상으로 광범위한 실험적 검증을 수행하여 강건성 평가

실험 결과

연구 질문

  • RQ1시뮬레이션된 데이터의 현실성이 향상되면 DNN의 일반화 성능이 원거리 음성인식에서 어떻게 향상될 수 있는가?
  • RQ2피드포워드 DNN에서 비대칭적 문맥 모델링이 잡음 및 반향 조건에서의 인식 성능 향상에 기여하는가?
  • RQ3재설정 게이트 제거 및 ReLU 활성화 함수 적용 등 GRU 아키텍처 수정이 원거리 음성인식 성능에 미치는 영향은 무엇인가?
  • RQ4다수의 DNN로 구성된 협동 학습 프레임워크가 단일 모델 기반 접근 방식을 능가할 수 있는가?
  • RQ5배치 정규화와 기울기 가중치는 다수의 DNN를 공동으로 훈련시키는 데 있어 어떤 역할을 하는가?

주요 결과

  • RIR 시뮬레이션을 위한 방향성 이미지 방법은 합성 데이터의 현실성을 크게 향상시켜 DSR을 위한 DNN 훈련에서 더 나은 일반화 성능을 이끌어낸다.
  • 피드포워드 DNN에 비대칭적 문맥 윈도우를 적용하면, 특히 반향 조건에서 대칭 윈도우보다 낮은 단어 오류율(WER)을 달성하며, 향후 음성 문맥을 더 잘 포착한다.
  • 재설정 게이트를 제거하고 ReLU 활성화 함수 및 배치 정규화를 적용한 수정된 GRUs는 CHiME-3 및 REVERB 도전 과제에서 수렴 성능 향상과 더 낮은 WER를 보였다.
  • '딥뉴럴네트워크의 네트워크'(NoDNN) 프레임워크는 CHiME-3 및 REVERB 도전 과제에서 최신 기술 수준의 성능을 달성하였으며, 단일 모델 기반 기준 대비 최대 15%의 상대적 WER 감소를 기록하였다.
  • NoDNN 프레임워크에서 공동 배치 정규화와 기울기 가중치는 훈련 안정성과 강건성을 향상시키며, 추론 실험을 통해 이들이 성능 향상에 결정적인 역할을 한다는 점을 확인하였다.
  • 다양한 코퍼스 및 마이크 설정에서의 광범위한 실험을 통해 제안된 방법이 다양한 실제 환경 조건에서 잘 일반화됨을 확인하였으며, 이는 강건한 ASR에서 실용적 유용성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.