[논문 리뷰] Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese
이 논문은 중국어 방언을 위한 사전 기반의 시퀀스-투-시퀀스 음성 인식 시스템을 제안한다. 이는 트랜스포머 아키텍처를 사용하며, 문맥 독립형 음소 대신 음절을 사용함으로써 우수한 성능을 달성한다. 결과적으로 문자 오류율(CER)이 28.77%에 이를 것으로 나타났으며, 이는 최신 기술 수준의 모델들과 경쟁 가능하며, CI-음소 기반 기준 모델보다 2% 이상 뛰어나다.
Sequence-to-sequence attention-based models have recently shown very promising results on automatic speech recognition (ASR) tasks, which integrate an acoustic, pronunciation and language model into a single neural network. In these models, the Transformer, a new sequence-to-sequence attention-based model relying entirely on self-attention without using RNNs or convolutions, achieves a new single-model state-of-the-art BLEU on neural machine translation (NMT) tasks. Since the outstanding performance of the Transformer, we extend it to speech and concentrate on it as the basic architecture of sequence-to-sequence attention-based model on Mandarin Chinese ASR tasks. Furthermore, we investigate a comparison between syllable based model and context-independent phoneme (CI-phoneme) based model with the Transformer in Mandarin Chinese. Additionally, a greedy cascading decoder with the Transformer is proposed for mapping CI-phoneme sequences and syllable sequences into word sequences. Experiments on HKUST datasets demonstrate that syllable based model with the Transformer performs better than CI-phoneme based counterpart, and achieves a character error rate (CER) of \emph{$28.77\%$}, which is competitive to the state-of-the-art CER of $28.0\%$ by the joint CTC-attention based encoder-decoder network.
연구 동기 및 목표
- 트랜스포머 아키텍처가 중국어 자동 음성 인식에서 효과적으로 작용하는지 평가하는 것.
- 순서 기반 어텐션 기반 음성 인식에서 음절 기반 모델링 단위와 문맥 독립형 음소(CI-음소) 모델링 단위의 성능을 비교하는 것.
- 서브워드 단위(음절 또는 CI-음소)를 단어 시퀀스로 매핑하기 위한 탐욕적 캐스케ading 디코더를 개발하고 검증하는 것.
- 데이터 증강(속도 왜곡)과 프레임 레이트가 모델 성능에 미치는 영향을 조사하는 것.
제안 방법
- 재귀나 컨볼루션을 사용하지 않고, 오직 자기 어텐션에 의존하는 트랜스포머 인코더-디코더 아키텍처를 채택한다.
- 중국어에서 고정된 인벤토리와 낮은 OOV 위험을 고려해 음절을 서브워드 단위로 사용한다.
- 음성 특징을 서브워드 시퀀스로 매핑하기 위해 음절 기반 또는 CI-음소 기반 트랜스포머 모델을 훈련한다.
- 먼저 서브워드 시퀀스를 예측한 다음 이를 단어 시퀀스로 매핑함으로써 후행 확률 P(W|X)를 최대화하는 탐욕적 캐스케ading 디코더를 구현한다.
- 훈련 데이터의 정확도를 향상시키기 위해 음성 신호를 0.9배와 1.1배로 스케일링하는 속도 왜곡을 적용한다.
- 입력의 시간 해상도에 민감도를 평가하기 위해 다양한 프레임 레이트(30ms, 50ms, 70ms)에서 성능을 평가한다.
실험 결과
연구 질문
- RQ1음절 기반 모델링에 적용했을 때 트랜스포머 아키텍처가 중국어 음성 인식에서 뛰어난 성능을 내는가?
- RQ2순서 기반 트랜스포머 음성 인식에서 음절 기반 모델링이 CI-음소 기반 모델링보다 우수한가?
- RQ3탐욕적 캐스케ading 디코더가 서브워드 시퀀스(음절 또는 CI-음소)를 단어 시퀀스로 효과적으로 변환하여 CER 향상에 기여하는가?
- RQ4속도 왜곡을 통한 데이터 증강이 음절 기반 및 CI-음소 기반 모델의 성능에 어떤 영향을 미치는가?
- RQ5프레임 레이트는 중국어 트랜스포머 기반 음성 인식 모델의 성능에 어떤 영향을 미치는가?
주요 결과
- 음절 기반 트랜스포머 모델은 문자 오류율(CER)이 28.77%로, 최신 기술 수준의 모델들과 경쟁 가능한 성능을 보였다.
- 동일한 데이터셋에서 음절 기반 모델은 CI-음소 기반 모델보다 2% 이상 뛰어나 CER 30.65%를 기록했다.
- 속도 왜곡이 음절 기반 모델의 성능을 크게 향상시켰으며, CER를 29.87%에서 28.77%로 감소시켰다. 반면 CI-음소 기반 모델에는 약간의 성능 저하를 초래했다.
- 두 모델 모두 프레임 레이트가 증가함에 따라 성능이 저하되었으며, 50ms에서 70ms로 올라갈 때 급격한 감소가 관찰되어 30–50ms 프레임 레이트에서 최적의 성능을 보였다.
- 탐욕적 캐스케ading 디코더는 서브워드에서 단어로의 매핑을 활용해 단어 수준의 인식 성능을 향상시키며, 전체 후행 확률 추정을 개선하는 데 효과적이었다.
- 트랜스포머 모델은 중국어 음성 인식에서 뛰어난 성능을 보였으며, 자원이 제한된 언어나 음절 기반 언어에서 순서 기반 모델링에 적합함을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.