QUICK REVIEW

[논문 리뷰] Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition

Binbin Zhang, Di Wu|arXiv (Cornell University)|2020. 12. 10.

Speech Recognition and Synthesis참고 문헌 26인용 수 46

한 줄 요약

논문은 동적 청크 어텐션을 갖춘 단일의 두-패스 하이브리드 CTC/어텐션 E2E 모델인 U2를 도입하며, 스트리밍과 비스트리밍 ASR을 모두 지원하고 청크 크기를 통해 지연을 제어하고, 어텐션 리스코어링으로 정확도와 속도를 향상시킨다.

ABSTRACT

In this paper, we present a novel two-pass approach to unify streaming and non-streaming end-to-end (E2E) speech recognition in a single model. Our model adopts the hybrid CTC/attention architecture, in which the conformer layers in the encoder are modified. We propose a dynamic chunk-based attention strategy to allow arbitrary right context length. At inference time, the CTC decoder generates n-best hypotheses in a streaming way. The inference latency could be easily controlled by only changing the chunk size. The CTC hypotheses are then rescored by the attention decoder to get the final result. This efficient rescoring process causes very little sentence-level latency. Our experiments on the open 170-hour AISHELL-1 dataset show that, the proposed method can unify the streaming and non-streaming model simply and efficiently. On the AISHELL-1 test set, our unified model achieves 5.60% relative character error rate (CER) reduction in non-streaming ASR compared to a standard non-streaming transformer. The same model achieves 5.42% CER with 640ms latency in a streaming ASR system.

연구 동기 및 목표

스트리밍과 비스트리밍 엔드-투-엔드 ASR을 하나의 모델로 통합하는 동기를 부여한다.
지연을 제어하기 위한 다이나믹 청크 어텐션을 갖춘 이중 패스 CTC/어텐션 아키텍처를 개발한다.
복잡한 RNN-T 학습 트릭 없이도 결합된 CTC 및 AED 손실을 사용하여 학습을 단순화한다.
통합 모델이 AISHELL-1에서 스트리밍 및 비스트리밍 성능을 경쟁력 있게 달성할 수 있음을 보여준다.

제안 방법

공유 인코더 및 분리된 CTC 디코더와 어텐션 디코더를 갖춘 하이브리드 CTC/어텐션 아키텍처를 채택한다.
임의의 오른쪽 컨텍스트를 가능하게 하고 청크 크기를 통해 추론 지연을 제어하기 위해 동적 청크 기반 어텐션을 사용한다.
최적화를 단순화하기 위해 결합된 CTC 및 AED 손실로 학습한다 (L_combined = λ L_CTC + (1−λ)(L_AED-L + L_AED-R)).
페이스에서 레이턴시를 네트워크 깊이로부터 분리하기 위해 Conformer 인코더에서 인과적 합성곱을 사용한다.
디코딩 중 스트리밍 n-최대 CTC 가설을 생성하고 어텐션 디코더로 리스코어링하여 최종 결과를 얻는다.
지연과 정확도의 균형을 맞추기 위해 스트리밍 디코딩이 가능한 CTC 퍼스트 패스와 그 후 어텐션 기반 리스코어링의 이중 패스 디코딩 체계를 제공한다.
스트리밍과 비스트리밍 학습의 통합을 위해 정적 청크 학습과 동적 청크 학습, 동적 청크 스케줄링 전략을 조사한다.]
static vs dynamic chunk training per your instruction?

실험 결과

연구 질문

RQ1단일 모델이 경쟁력 있는 정확도로 스트리밍과 비스트리밍 ASR을 함께 지원할 수 있는가?
RQ2추론 시 동적 청크 어텐션 가격 책정이 지연-정확도 트레이드오프에 어떤 영향을 미치는가?
RQ3CTC로 생성된 가설의 어텐션 리스코어링이 순회적 어텐션 디코딩만으로 얻는 것보다 실시간 성능을 개선하는가?
RQ4스트리밍과 비스트리밍 동작을 통합하기 위한 학습 전략은 무엇인가(정적 대 동적 청크, 청크 크기 분포)?

주요 결과

AISHELL-1에서 통합 모델은 표준 비스트리밍 트랜스포머 대비 비스트리밍 ASR에서 상대 CER 5.60% 감소를 달성했다.
스트리밍 모드에서 동일한 모델이 640 ms의 지연으로 CER 5.33%를 달성했다.
CTC 가설에 대한 어텐션 리스코어링은 리코스팅 중 CTC 가중치 0.5에서 CER을 4.72로 개선했다(CTC 접두 빔 검색 또는 순회형 어텐션 단독보다 우수).
어텐션 리스코어링은 순회형 어텐션 디코더보다 더 빨랐으며, 보고된 설정에서 디코딩 시간 면에서 약 2.40배의 속도 향상을 달성했다.
동적 청크 학습은 정적 청크 학습과 비슷한 성능을 제공하며 중간 청크 크기(예: 16/8/4)에서 정적 구성과 같거나 더 우수한 지연-정확도 트레이드오프를 달성할 수 있다.
이 방법은 AISHELL-1에서 최첨단 스트리밍 정확도를 달성하고 대규모 만다린어 데이터셋(15,000시간 실험)으로도 경쟁력 있는 결과를 보여준다.]
table_headers: [
translated?

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.