Skip to main content
QUICK REVIEW

[논문 리뷰] Fast offline Transformer-based end-to-end automatic speech recognition for real-world applications

Yoo Rhee Oh, Kiyoung Park|arXiv (Cornell University)|2021. 01. 14.
Speech Recognition and Synthesis참고 문헌 50인용 수 7
한 줄 요약

이 논문은 다중 발화자 배치 기반 범용 빔 서치, CTC 기반 종료 시점 탐지, 시간 제한된 CTC 프리픽스 스코어링, 그리고 DNN-VAD 또는 하드 세그먼테이션을 통한 음성 분할을 활용하여 실생활 응용을 위한 빠르고 효율적인 오프라인 트랜스포머 기반 엔드 투 엔드 ASR 시스템을 제안한다. 이 시스템은 단 두 장의 GPU 카드만을 사용하여 8시간의 실제 회의 음성에서 3분 이내로 10.73%의 문자 오류률을 달성하였으며, 기존의 DNN-HMM 시스템 대비 27.1%의 상대적 향상도를 보였다.

ABSTRACT

With the recent advances in technology, automatic speech recognition (ASR) has been widely used in real-world applications. The efficiency of converting large amounts of speech into text accurately with limited resources has become more important than ever. This paper proposes a method to rapidly recognize a large speech database via a Transformer-based end-to-end model. Transformers have improved the state-of-the-art performance in many fields. However, they are not easy to use for long sequences. In this paper, various techniques to speed up the recognition of real-world speeches are proposed and tested, including decoding via multiple-utterance batched beam search, detecting end-of-speech based on a connectionist temporal classification (CTC), restricting the CTC prefix score, and splitting long speeches into short segments. Experiments are conducted with the Librispeech English and the real-world Korean ASR tasks to verify the proposed methods. From the experiments, the proposed system can convert 8 hours of speeches spoken at real-world meetings into text in less than 3 minutes with a 10.73% character error rate, which is 27.1% relatively lower than that of conventional systems.

연구 동기 및 목표

  • 제한된 계산 자원으로도 대규모 실생활 음성 데이터베이스에 대한 오프라인 엔드 투 엔드 음성 인식을 가속화하기 위해.
  • 고비용의 계산 비용과 순차적 처리의 병목 현상으로 인해 트랜스포머가 장시간 음성 시퀀스를 처리하는 데 비효율적인 문제를 해결하기 위해.
  • 실생활 회의 번역 시나리오에서 높은 인식 정확도를 유지하면서 디코딩 속도와 GPU 활용도를 향상시키기 위해.
  • 장시간 발화 처리에서 DNN-VAD와 하드 세그먼테이션의 세그먼테이션 전략을 평가하고 비교하기 위해.
  • CTC 프리픽스 스코어링의 계산 오버헤드를 줄이고, 시간 제한된 CPU 기반 처리를 통해 더 빠른 추론을 가능하게 하기 위해.

제안 방법

  • 다중 발화자, 다중 가설 배치 기반 빔 서치를 도입하여 GPU 병렬 처리를 향상시키고, 여러 발화에 걸쳐 디코딩 속도를 가속화하였다.
  • 특히 노이즈가 많거나 말이 적은 발화에서 유용한, 디코딩을 조기에 종료하는 CTC 기반 종료 시점 탐지를 제안하였다.
  • 각 디코딩 단계에서 검토하는 시간 범위를 제한함으로써 시간 제한된 CTC 프리픽스 스코어링을 도입하여 계산 복잡도를 감소시켰다.
  • 장기간의 발화를 자연스러운 정지 지점에서 분할하기 위해 DNN 기반 음성 활동 검출(VAD)을 적용하여, 무작위 세그먼테이션보다 인식 정확도를 향상시켰다.
  • 가벼운 대안으로 하드 세그먼테이션을 구현하여, 정의된 길이 범위(15–20초 또는 19–20초) 내에서 장기간의 발화를 균일하게 분할하였다.
  • 배치 기반 빔 서치와 세그먼트 입력을 조합하여 GPU 메모리 활용도를 극대화하고 안정적인 추론 속도를 유지하였다.

실험 결과

연구 질문

  • RQ1다중 발화자 배치 기반 빔 서치가 트랜스포머 기반 ASR에서 디코딩 처리량을 크게 향상시킬 수 있는가?
  • RQ2CTC 기반 종료 시점 탐지가, 훈련 및 테스트 조건이 일치하지 않을 경우에도 디코딩 시간을 줄이는 데 얼마나 효과적인가?
  • RQ3시간 제한된 CTC 프리픽스 스코어링이 인식 정확도를 저하시키지 않으면서 계산 부담을 어느 정도 감소시킬 수 있는가?
  • RQ4장시간 음성 처리에서 DNN-VAD와 하드 세그먼테이션은 정확도와 계산 비용 측면에서 어떻게 비교되는가?
  • RQ5제안된 파이프라인은 최첨단 정확도를 유지하면서도 제한된 자원으로도 실생활 회의 녹음물을 고속으로 저비용으로 변환할 수 있는가?

주요 결과

  • 제안된 시스템은 단 두 장의 GPU 카드만을 사용하여 실제 회의 음성 8시간을 3분 이내로 텍스트로 변환하였다.
  • 이 시스템은 한국어 회의 데이터셋에서 문자 오류률(CER)이 10.73%를 기록하였으며, 기존의 DNN-HMM 시스템 대비 27.1%의 상대적 감소를 보였다.
  • DNN-VAD 기반 세그먼테이션은 자연스러운 어절 경계에서의 분할로 인해 단어 경계 오류를 줄여, 하드 세그먼테이션보다 더 높은 인식 정확도를 달성하였다.
  • 하드 세그먼테이션은 정확도가 다소 낮지만 추가 계산이 필요 없어 자원 오버헤드가 낮아 상용 규모의 구현에 더 유리하다.
  • 배치 기반 빔 서치와 세그먼트 입력의 조합은 제한된 GPU 메모리 조건에서도 안정적이고 고처리량의 추론을 가능하게 하였다.
  • 시간 제한된 CTC 프리픽스 스코어링은 각 디코딩 단계에서 검토하는 시간 범위를 제한함으로써 계산 복잡도를 감소시켜 더 빠른 추론을 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.