QUICK REVIEW

[논문 리뷰] Fast offline Transformer-based end-to-end automatic speech recognition for real-world applications

Yoo Rhee Oh, Kiyoung Park|arXiv (Cornell University)|2021. 01. 14.

Speech Recognition and Synthesis참고 문헌 50인용 수 7

한 줄 요약

이 논문은 다중 발화자 배치 기반 범용 빔 서치, CTC 기반 종료 시점 탐지, 시간 제한된 CTC 프리픽스 스코어링, 그리고 DNN-VAD 또는 하드 세그먼테이션을 통한 음성 분할을 활용하여 실생활 응용을 위한 빠르고 효율적인 오프라인 트랜스포머 기반 엔드 투 엔드 ASR 시스템을 제안한다. 이 시스템은 단 두 장의 GPU 카드만을 사용하여 8시간의 실제 회의 음성에서 3분 이내로 10.73%의 문자 오류률을 달성하였으며, 기존의 DNN-HMM 시스템 대비 27.1%의 상대적 향상도를 보였다.

ABSTRACT

With the recent advances in technology, automatic speech recognition (ASR) has been widely used in real-world applications. The efficiency of converting large amounts of speech into text accurately with limited resources has become more important than ever. This paper proposes a method to rapidly recognize a large speech database via a Transformer-based end-to-end model. Transformers have improved the state-of-the-art performance in many fields. However, they are not easy to use for long sequences. In this paper, various techniques to speed up the recognition of real-world speeches are proposed and tested, including decoding via multiple-utterance batched beam search, detecting end-of-speech based on a connectionist temporal classification (CTC), restricting the CTC prefix score, and splitting long speeches into short segments. Experiments are conducted with the Librispeech English and the real-world Korean ASR tasks to verify the proposed methods. From the experiments, the proposed system can convert 8 hours of speeches spoken at real-world meetings into text in less than 3 minutes with a 10.73% character error rate, which is 27.1% relatively lower than that of conventional systems.

연구 동기 및 목표

제한된 계산 자원으로도 대규모 실생활 음성 데이터베이스에 대한 오프라인 엔드 투 엔드 음성 인식을 가속화하기 위해.
고비용의 계산 비용과 순차적 처리의 병목 현상으로 인해 트랜스포머가 장시간 음성 시퀀스를 처리하는 데 비효율적인 문제를 해결하기 위해.
실생활 회의 번역 시나리오에서 높은 인식 정확도를 유지하면서 디코딩 속도와 GPU 활용도를 향상시키기 위해.
장시간 발화 처리에서 DNN-VAD와 하드 세그먼테이션의 세그먼테이션 전략을 평가하고 비교하기 위해.
CTC 프리픽스 스코어링의 계산 오버헤드를 줄이고, 시간 제한된 CPU 기반 처리를 통해 더 빠른 추론을 가능하게 하기 위해.

제안 방법

다중 발화자, 다중 가설 배치 기반 빔 서치를 도입하여 GPU 병렬 처리를 향상시키고, 여러 발화에 걸쳐 디코딩 속도를 가속화하였다.
특히 노이즈가 많거나 말이 적은 발화에서 유용한, 디코딩을 조기에 종료하는 CTC 기반 종료 시점 탐지를 제안하였다.
각 디코딩 단계에서 검토하는 시간 범위를 제한함으로써 시간 제한된 CTC 프리픽스 스코어링을 도입하여 계산 복잡도를 감소시켰다.
장기간의 발화를 자연스러운 정지 지점에서 분할하기 위해 DNN 기반 음성 활동 검출(VAD)을 적용하여, 무작위 세그먼테이션보다 인식 정확도를 향상시켰다.
가벼운 대안으로 하드 세그먼테이션을 구현하여, 정의된 길이 범위(15–20초 또는 19–20초) 내에서 장기간의 발화를 균일하게 분할하였다.
배치 기반 빔 서치와 세그먼트 입력을 조합하여 GPU 메모리 활용도를 극대화하고 안정적인 추론 속도를 유지하였다.

실험 결과

연구 질문

RQ1다중 발화자 배치 기반 빔 서치가 트랜스포머 기반 ASR에서 디코딩 처리량을 크게 향상시킬 수 있는가?
RQ2CTC 기반 종료 시점 탐지가, 훈련 및 테스트 조건이 일치하지 않을 경우에도 디코딩 시간을 줄이는 데 얼마나 효과적인가?
RQ3시간 제한된 CTC 프리픽스 스코어링이 인식 정확도를 저하시키지 않으면서 계산 부담을 어느 정도 감소시킬 수 있는가?
RQ4장시간 음성 처리에서 DNN-VAD와 하드 세그먼테이션은 정확도와 계산 비용 측면에서 어떻게 비교되는가?
RQ5제안된 파이프라인은 최첨단 정확도를 유지하면서도 제한된 자원으로도 실생활 회의 녹음물을 고속으로 저비용으로 변환할 수 있는가?

주요 결과

제안된 시스템은 단 두 장의 GPU 카드만을 사용하여 실제 회의 음성 8시간을 3분 이내로 텍스트로 변환하였다.
이 시스템은 한국어 회의 데이터셋에서 문자 오류률(CER)이 10.73%를 기록하였으며, 기존의 DNN-HMM 시스템 대비 27.1%의 상대적 감소를 보였다.
DNN-VAD 기반 세그먼테이션은 자연스러운 어절 경계에서의 분할로 인해 단어 경계 오류를 줄여, 하드 세그먼테이션보다 더 높은 인식 정확도를 달성하였다.
하드 세그먼테이션은 정확도가 다소 낮지만 추가 계산이 필요 없어 자원 오버헤드가 낮아 상용 규모의 구현에 더 유리하다.
배치 기반 빔 서치와 세그먼트 입력의 조합은 제한된 GPU 메모리 조건에서도 안정적이고 고처리량의 추론을 가능하게 하였다.
시간 제한된 CTC 프리픽스 스코어링은 각 디코딩 단계에서 검토하는 시간 범위를 제한함으로써 계산 복잡도를 감소시켜 더 빠른 추론을 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.