QUICK REVIEW

[논문 리뷰] Multichannel End-to-end Speech Recognition

Tsubasa Ochiai, Shinji Watanabe|arXiv (Cornell University)|2017. 03. 14.

Speech and Audio Processing참고 문헌 31인용 수 46

한 줄 요약

이 논문은 시간-주파수 마스크 추정과 주목적 기반 참조 마이크로폰 선택을 사용하는 미분 가능한 신경 기반 빔포머를 활용해 음성 강화와 음성 인식을 동시에 최적화하는 다채널 엔드 투 엔드 음성 인식 시스템을 제안한다. 정제된 병렬 데이터가 필요 없이 노이즈가 있는 다채널 입력과 번역문으로 엔드 투 엔드로 훈련함으로써, CHiME-4 및 AMI 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 노이즈가 있는 단채널 및 빔포밍 기반 베이스라인을 모두 능가한다.

ABSTRACT

The field of speech recognition is in the midst of a paradigm shift: end-to-end neural networks are challenging the dominance of hidden Markov models as a core technology. Using an attention mechanism in a recurrent encoder-decoder architecture solves the dynamic time alignment problem, allowing joint end-to-end training of the acoustic and language modeling components. In this paper we extend the end-to-end framework to encompass microphone array signal processing for noise suppression and speech enhancement within the acoustic encoding network. This allows the beamforming components to be optimized jointly within the recognition architecture to improve the end-to-end speech recognition objective. Experiments on the noisy speech benchmarks (CHiME-4 and AMI) show that our multichannel end-to-end system outperformed the attention-based baseline with input from a conventional adaptive beamformer.

연구 동기 및 목표

노이즈 환경에서 특히 음성 강화를 통합하지 않는 기존 엔드 투 엔드 ASR 시스템의 한계를 해결한다.
ASR 전처리로 사용될 때 최적화 목적이 불일치하여 성능이 열등한 전통적 빔포머의 문제를 해결한다.
정제된 병렬 데이터가 필요 없이 노이즈가 있는 다채널 입력과 번역문만을 사용하여 다채널 음성 강화와 ASR를 공동 최적화할 수 있도록 한다.
재학습이나 재구성 없이 마이크로폰 어레이 구성(채널 수와 순서)에 대해 불변성을 확보한다.

제안 방법

시간-주파수 마스크 추정을 통한 음성 강화를 위해 주목적 기반 인코더-디코더 ASR 프레임워크에 미분 가능한 신경 기반 빔포머를 통합한다.
MVDR 필터 계수를 시간-주파수 도메인에서 추정하기 위해 마스크 추정 네트워크를 사용하여 엔드 투 엔드 훈련 과정 내에서 미분 가능한 음성 강화를 가능하게 한다.
MVDR 빔포밍을 위한 參考 마이크로폰 선택을 위해 주목적 메커니즘을 활용하여 임의의 마이크로폰 어레이 구성에 대해 강건성을 확보한다.
단어 오류율(WER)을 목적 함수로 사용하여 오직 노이즈가 있는 다채널 입력과 텍스트 번역문만을 사용해 전체 시스템을 엔드 투 엔드로 훈련한다.
MVDR 설정을 활용해 참조 마이크로폰에서 음성 영상(이미지)을 추정함으로써 정제된 데이터가 없더라도 효과적인 노이즈 제거가 가능하다.
채널 독립적 마스크 추정과 주목적 기반 참조 선택을 통해 채널 순서와 수에 대해 불변성을 확보한다.

실험 결과

연구 질문

RQ1노이즈가 있는 다채널 입력과 번역문만을 사용하여 다채널 엔드 투 엔드 ASR 시스템이 음성 강화와 인식을 공동 최적화할 수 있는가?
RQ2주목적 기반 빔포머를 사용한 엔드 투 엔드 훈련은 전통적 빔포머를 전처리로 사용하는 것보다 인식 성능을 향상시키는가?
RQ3재학습 없이도 임의의 마이크로폰 어레이 구성(채널 수와 순서)에 일반화 가능한가?
RQ4정제된 병렬 데이터가 없이 성능에 악영향을 주는가? 그리고 오직 번역된 노이즈가 있는 다채널 데이터만으로도 강력한 성능을 달성할 수 있는가?

주요 결과

제안된 MASK_NET (ATT) 모델은 CHiME-4 테스트 세트에서 35.7%의 단어 오류율(WER)을 기록하여, 노이즈가 있는 단채널 입력을 사용한 주목적 기반 베이스라인(51.3%)과 빔포밍 입력을 사용한 베이스라인(45.9%)을 모두 능가했다.
AMI 코퍼스에서 MASK_NET (ATT)는 노이즈가 있는 단채널 베이스라인과 빔포밍 베이스라인 양쪽 모두를 초월하여 다양한 노이즈 환경에서의 효과성을 확인했다.
채널 순서가 변경되어도 성능 저하가 없었으며(예: 5_6_4_3_1 대비 3_4_1_5_6), 채널 순서에 대한 강건성을 입증했다.
세 개 또는 네 개의 채널로도 단채널 노이즈 베이스라인을 능가하는 성능을 기록하여, 감소된 채널 수에 대한 강력한 일반화 능력을 보였다.
spectrogram 시각화 결과, 정제된 데이터 없이도 ASR 목적 함수로만 훈련된 모델이 전통적 빔포머와 유사하게 노이즈를 효과적으로 억제하고 고조파 구조를 복원하는 것을 확인했다.
정제된 병렬 데이터가 전혀 필요 없이 오직 번역된 노이즈가 있는 다채널 입력만으로도 뛰어난 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.