QUICK REVIEW

[논문 리뷰] Hierarchical Multitask Learning for CTC-based Speech Recognition

Kalpesh Krishna, Shubham Toshniwal|arXiv (Cornell University)|2018. 07. 17.

Speech Recognition and Synthesis참고 문헌 31인용 수 36

한 줄 요약

이 논문은 CTC 기반 음성 인식을 위한 계층적 다중작업 학습 프레임워크를 제안하며, 깊이 있는 양방향 LSTM 인코더의 중간층에 음소 수준의 CTC 손실을 적용하여 서어절 수준의 ASR 성능을 향상시킨다. 사전학습과 계층적 다중작업 학습을 결합할 경우 Eval2000 테스트 세트에서 기준 모델 대비 3.4% 절대적인 WER 감소를 달성하며, 표준 다중작업 학습 및 사전학습만을 사용하는 것보다 우수한 성능을 보인다.

ABSTRACT

Previous work has shown that neural encoder-decoder speech recognition can be improved with hierarchical multitask learning, where auxiliary tasks are added at intermediate layers of a deep encoder. We explore the effect of hierarchical multitask learning in the context of connectionist temporal classification (CTC)-based speech recognition, and investigate several aspects of this approach. Consistent with previous work, we observe performance improvements on telephone conversational speech recognition (specifically the Eval2000 test sets) when training a subword-level CTC model with an auxiliary phone loss at an intermediate layer. We analyze the effects of a number of experimental variables (like interpolation constant and position of the auxiliary loss function), performance in lower-resource settings, and the relationship between pretraining and multitask learning. We observe that the hierarchical multitask approach improves over standard multitask training in our higher-data experiments, while in the low-resource settings standard multitask training works well. The best results are obtained by combining hierarchical multitask learning and pretraining, which improves word error rates by 3.4% absolute on the Eval2000 test sets.

연구 동기 및 목표

중간층에서 음소 수준의 감독을 통한 계층적 다중작업 학습의 효과를 CTC 기반 엔드 투 엔드 음성 인식에서 조사하는 것.
보조 손실의 가중치 상수, 손실 레이어의 위치, 데이터 자원 수준이 모델 성능에 미치는 영향을 분석하는 것.
계층적 다중작업 학습이 표준 다중작업 학습 및 사전학습과 비교하여 어떻게 성능을 내는지 평가하고, 이들의 조합 효과를 분석하는 것.
보조 음소 수준 작업이 깊이 있는 ASR 모델의 최적화 및 일반화에 어떻게 영향을 주는지 이해하는 것.

제안 방법

입력 음성 특징을 처리하기 위해 깊이 있는 양방향 LSTM 인코더를 사용하며, 최종 출력 레이어에 서어절 수준의 CTC 손실을 적용한다.
중간 히든 레이어에 보조 음소 수준의 CTC 손실을 도입하여 중간 단계의 감독을 제공한다.
전체 손실은 서어절 CTC 손실과 음소 CTC 손실의 가중합이며, 보조 손실의 가중치 상수 λ가 성능 간의 트레이드오프를 조절한다.
사전학습 단계에서 음소 CTC 손실을 사용한 후, 서어절 CTC 손실과 함께 공동 학습을 수행하여 모델을 훈련시킨다.
보조 손실의 위치(즉, 어떤 레이어에 적용하는지)를 변화시켜 성능에 미치는 영향을 평가한다.
품질 비교를 위해 근사적 디코딩을 사용하여 프레임 수준의 정렬을 생성한다.

실험 결과

연구 질문

RQ1Switchboard 300시간 데이터셋에서 중간층에 음소 수준의 CTC 손실을 적용함으로써 서어절 수준의 CTC 기반 음성 인식 성능이 향상되는가?
RQ2서어절 CTC 손실과 음소 CTC 손실 간의 가중치 상수 λ 선택이 주 작업 및 보조 작업 양쪽의 성능에 어떻게 영향을 미치는가?
RQ3고자원 환경과 저자원 환경에서 계층적 다중작업 학습이 표준 다중작업 학습보다 우수한가?
RQ4음소 CTC 손실을 사용한 사전학습과 이후 계층적 다중작업 학습을 조합하면, 각각의 방법을 별도로 사용하는 것보다 더 좋은 성능을 낼 수 있는가?
RQ5모델의 프레임 수준 정렬은 참값 정렬과 비교하여 어떻게 다른가? 다중작업 학습은 예측을 더 이르거나 더 확신 있게 하는가?

주요 결과

사전학습과 계층적 다중작업 학습을 조합한 최적의 모델은 기준 서어절 수준의 CTC 모델 대비 Eval2000 테스트 세트에서 3.4% 절대적인 WER 감소를 달성한다.
고자원 환경에서는 계층적 다중작업 학습이 표준 다중작업 학습보다 우수하지만, 저자원 환경에서는 표준 다중작업 학습이 더 우수한 성능을 보인다.
최적의 가중치 상수 λ가 주 작업(서어절)과 보조 작업(음소) 양쪽의 성능을 동시에 최적화하지는 않으며, 이는 목표 간의 트레이드오프를 의미한다.
다중작업 학습 모델은 기준 모델보다 한 프레임(20ms) 일찍 예측을 생성하며, 이는 더 높은 신뢰도 또는 개선된 시간적 정렬을 의미한다.
사전학습만으로도 성능 향상이 가능하지만, 계층적 다중작업 학습과 조합하면 가장 우수한 성능을 낸다. 이는 상호보완적 효과를 확인한다.
품질 분석 결과, 복잡한 발화에서 기준 모델에 비해 다중작업 학습 모델의 정렬이 참값의 단어 경계와 더 일치하는 경향을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.