QUICK REVIEW

[논문 리뷰] Invariant Representations for Noisy Speech Recognition

Dmitriy Serdyuk, Kartik Audhkhasi|arXiv (Cornell University)|2016. 11. 27.

Speech Recognition and Synthesis참고 문헌 16인용 수 65

한 줄 요약

이 논문은 깊이 있는 신경망 아키텍처를 제안하며, 정규화된 도메인 분류기(도메인 분류기가 청청 음성과 노이즈 있는 음성을 구분하지 못하도록)를 통해 노이즈에 민감하지 않은 음성 표현을 학습한다. 주된 음성 모델은 높은 분류 정확도를 유지한다. 이 방법은 특히 훈련 중에 소음 유형이 몇 개인 경우에 한해, 새로운 소음 유형으로의 일반화 능력을 크게 향상시키며, Aurora-4 벤치마크에서 표준 다중 조건 훈련을 능가한다.

ABSTRACT

Modern automatic speech recognition (ASR) systems need to be robust under acoustic variability arising from environmental, speaker, channel, and recording conditions. Ensuring such robustness to variability is a challenge in modern day neural network-based ASR systems, especially when all types of variability are not seen during training. We attempt to address this problem by encouraging the neural network acoustic model to learn invariant feature representations. We use ideas from recent research on image generation using Generative Adversarial Networks and domain adaptation ideas extending adversarial gradient-based training. A recent work from Ganin et al. proposes to use adversarial training for image domain adaptation by using an intermediate representation from the main target classification network to deteriorate the domain classifier performance through a separate neural network. Our work focuses on investigating neural architectures which produce representations invariant to noise conditions for ASR. We evaluate the proposed architecture on the Aurora-4 task, a popular benchmark for noise robust ASR. We show that our method generalizes better than the standard multi-condition training especially when only a few noise categories are seen during training.

연구 동기 및 목표

청음 조건, 화자, 채널 변동성과 같은 새로운 음성 환경에서 자동 음성 인식(ASR)의 강인성을 향상시키기.
훈련 중에 나타나지 않은 새로운 소음 유형으로의 일반화 문제를 해결하기. 이는 신경망 기반 ASR에서 흔한 제약이다.
명시적인 노이즈에 강인한 특징나 또는 광범위한 데이터 증강에 의존하지 않고도 불변 표현을 학습하는 방법을 개발하기.
생성적 적대적 네트워크(GANs)에서 영감을 얻은 도메인 적응 기법을 음성 인식에 적용하기.
다양한 수의 알려진 소음 유형이 있는 조건에서 표준 Aurora-4 벤치마크에서 이 방법의 효과를 평가하기.

제안 방법

주 음성 모델로 6층의 깊이 신경망(DNN)을 사용하며, 4번째 레이어에서 입력 음성이 청청인지 노이즈 있는지 예측하는 분기 구조를 마련한다.
도메인 분류기 네트워크는 4번째 레이어의 은닉 표현을 사용하여 청청 음성과 노이즈 있는 음성을 구분하도록 훈련된다.
훈련 목표는 음성 분류 손실, 도메인 분류 손실, 그리고 도메인 불변성을 장려하는 기울기 반전 항목을 포함한다.
에코더의 기울기에 기울기 반전 레이어(Ganin & Lempitsky, 2014)를 적용하여 표현이 도메인 분류기에 대해 더 덜 구분 가능하게 만든다.
모멘터럼과 학습률 감소를 사용한 확률적 경사 하강법으로 훈련하며, 미니배치는 청청 프레임과 노이즈 프레임 간 균형을 맞춘다.
이 방법은 레이어별 사전 훈련이 필요 없으며, 훈련 중에 보이는 소음 유형의 수를 다양하게 하여 Aurora-4 데이터셋에서 평가된다.

실험 결과

연구 질문

RQ1도메인 불변성에 대한 적대적 훈련이 새로운 소음 유형으로의 ASR 일반화 능력을 향상시킬 수 있는가?
RQ2훈련 중에 소음 유형의 일부만 존재할 경우, 제안된 방법이 표준 다중 조건 훈련보다 어떻게 성능을 냈는가?
RQ3노이즈에 불변인 표현을 학습하는 것이 새로운 마이크와 소음 조건에서 더 나은 성능을 내는가?
RQ4왜 음성 인식 작업에서 도메인 분류기는 이미지 인식 작업에 비해 과소적합(underfitting)을 겪는가?
RQ5기울기 반전 기반 도메인 적응 기법을 최소한의 아키텍처 변경으로 엔드 투 엔드 ASR에 효과적으로 적용할 수 있는가?

주요 결과

모든 여섯 가지 소음 유형이 훈련 중에 보인 경우, 제안된 불변성 훈련 방법은 Aurora-4 테스트 세트에서 12.62%의 WER을 달성하여 기준 모델(12.60% WER)을 略적으로 뛰어넘었다.
훈련 중에 하나의 소음 유형만 보인 경우, 불변성 모델은 새로운 소음 유형에서 16.36%의 WER을 기록했고, 기준 모델은 22.47%로, 절대적 개선 폭이 6.11%였다.
다섯 가지 소음 유형이 훈련 중에 보인 경우, 불변성 모델은 새로운 소음에서 13.41%의 WER을 기록했고, 기준 모델은 19.33%로, 강력한 일반화 성능 향상을 보였다.
이 방법은 특히 훈련 데이터가 소음 유형 수가 적을 경우, 새로운 소음 조건에서 다중 조건 훈련을 항상 능가한다.
사전 훈련 모델을 사용한 경우에도 불변성 훈련 방법은 이점을 유지했으며, 모든 소음 유형을 사용할 때 11.85% WER(기준 모델 11.99% WER)를 기록하여 초기화에 대한 강인성을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.