QUICK REVIEW

[논문 리뷰] Deep Learning for Environmentally Robust Speech Recognition: An Overview of Recent Developments

Zixing Zhang, Jürgen T. Geiger|arXiv (Cornell University)|2017. 05. 30.

Speech and Audio Processing참고 문헌 137인용 수 62

한 줄 요약

이 논문은 비정상 환경 소음에서의 강인한 ASR를 위한 심층 학습 접근법을 조사하고, 단일 채널 vs 다중 채널 및 전처리(front-end) vs 후처리(back-end) 아키텍처로 정리하며 훈련 전략과 데이터세트를 논의한다.

ABSTRACT

Eliminating the negative effect of non-stationary environmental noise is a long-standing research topic for automatic speech recognition that stills remains an important challenge. Data-driven supervised approaches, including ones based on deep neural networks, have recently emerged as potential alternatives to traditional unsupervised approaches and with sufficient training, can alleviate the shortcomings of the unsupervised methods in various real-life acoustic environments. In this light, we review recently developed, representative deep learning approaches for tackling non-stationary additive and convolutional degradation of speech with the aim of providing guidelines for those involved in the development of environmentally robust speech recognition systems. We separately discuss single- and multi-channel techniques developed for the front-end and back-end of speech recognition systems, as well as joint front-end and back-end training frameworks.

연구 동기 및 목표

현실 세계 환경에서의 환경 소음과 잔향 문제를 ASR에 동기 부여하고 정의한다.
채널 수 및 시스템 단계별로 분류된 노이즈 강인성에 대한 심층 학습 접근법의 분류를 제공한다.
대표적인 전처리, 후처리 및 결합 전처리/후처리 기법을 요약한다.
훈련 코퍼스, 지표, 그리고 학습 및 평가를 위한 실용적 고려사항을 논의한다.

제안 방법

전처리, 후처리, 그리고 결합 전처리/후처리 기법으로 접근법을 분류한다.
매핑 기반 개선 방법과 마스킹 기반 개선 방법을 구분한다.
지원 아키텍처(DNN, CNN, RNN/LSTM, GRU)와 그 노이즈 제거 및 특징 추출에서의 역할을 논의한다.
적대적 학습(adversarial training)과 WaveNet 유사한 시간 영역 매핑의 역할을 강조한다.
다채널 접근법과 케프스트럴 도메인 표현에서 시간 표현으로의 전환 추세를 검토한다.

실험 결과

연구 질문

RQ1비정상적인 소음과 잔향을 완화하기 위한 가장 효과적인 심층 학습 전략은 무엇인가?
RQ2단일 채널 대 다중 채널 접근이 전처리, 후처리 및 결합 구성에서 어떻게 다른가?
RQ3환경적으로 강인한 음성 인식을 가장 잘 지원하는 데이터 세트, 평가 지표 및 학습 패러다임은 무엇인가?
RQ4적대적 학습 및 시간 도메인 매핑과 같은 최근의 진보가 강인성에 어떻게 영향을 미치는가?

주요 결과

딥러닝 접근법은 비정상 소음과 잔향에 대해 ASR에서 전통적인 비지도 방법을 능가할 수 있다.
CNN, RNN/LSTM, WaveNet 영감을 받은 시간 도메인 모델은 전처리 강화와 특징 추출을 효과적으로 가능케 한다.
마스킹 기반 방법(예: IRM, IBM, Phase-Sensitive Mask)은 ASR 작업에서 일부 이진 마스킹 접근법보다 더 우수하다.
적대적 학습과 다조건 사전 학습은 다양한 환경에 대한 강인성을 향상시킨다.
케프스트럴 도메인 표현에서 시간 도메인 처리로의 전환이 관찰되며, 이는 아키텍처 혁신과 클라우드 규모 데이터의 도움으로 가능해졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.