QUICK REVIEW

[논문 리뷰] Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Shiyu Zhou, Linhao Dong|arXiv (Cornell University)|2018. 04. 28.

Speech Recognition and Synthesis참고 문헌 23인용 수 28

한 줄 요약

이 논문은 중국어 방언을 위한 사전 기반의 시퀀스-투-시퀀스 음성 인식 시스템을 제안한다. 이는 트랜스포머 아키텍처를 사용하며, 문맥 독립형 음소 대신 음절을 사용함으로써 우수한 성능을 달성한다. 결과적으로 문자 오류율(CER)이 28.77%에 이를 것으로 나타났으며, 이는 최신 기술 수준의 모델들과 경쟁 가능하며, CI-음소 기반 기준 모델보다 2% 이상 뛰어나다.

ABSTRACT

Sequence-to-sequence attention-based models have recently shown very promising results on automatic speech recognition (ASR) tasks, which integrate an acoustic, pronunciation and language model into a single neural network. In these models, the Transformer, a new sequence-to-sequence attention-based model relying entirely on self-attention without using RNNs or convolutions, achieves a new single-model state-of-the-art BLEU on neural machine translation (NMT) tasks. Since the outstanding performance of the Transformer, we extend it to speech and concentrate on it as the basic architecture of sequence-to-sequence attention-based model on Mandarin Chinese ASR tasks. Furthermore, we investigate a comparison between syllable based model and context-independent phoneme (CI-phoneme) based model with the Transformer in Mandarin Chinese. Additionally, a greedy cascading decoder with the Transformer is proposed for mapping CI-phoneme sequences and syllable sequences into word sequences. Experiments on HKUST datasets demonstrate that syllable based model with the Transformer performs better than CI-phoneme based counterpart, and achieves a character error rate (CER) of \emph{$28.77\%$}, which is competitive to the state-of-the-art CER of $28.0\%$ by the joint CTC-attention based encoder-decoder network.

연구 동기 및 목표

트랜스포머 아키텍처가 중국어 자동 음성 인식에서 효과적으로 작용하는지 평가하는 것.
순서 기반 어텐션 기반 음성 인식에서 음절 기반 모델링 단위와 문맥 독립형 음소(CI-음소) 모델링 단위의 성능을 비교하는 것.
서브워드 단위(음절 또는 CI-음소)를 단어 시퀀스로 매핑하기 위한 탐욕적 캐스케ading 디코더를 개발하고 검증하는 것.
데이터 증강(속도 왜곡)과 프레임 레이트가 모델 성능에 미치는 영향을 조사하는 것.

제안 방법

재귀나 컨볼루션을 사용하지 않고, 오직 자기 어텐션에 의존하는 트랜스포머 인코더-디코더 아키텍처를 채택한다.
중국어에서 고정된 인벤토리와 낮은 OOV 위험을 고려해 음절을 서브워드 단위로 사용한다.
음성 특징을 서브워드 시퀀스로 매핑하기 위해 음절 기반 또는 CI-음소 기반 트랜스포머 모델을 훈련한다.
먼저 서브워드 시퀀스를 예측한 다음 이를 단어 시퀀스로 매핑함으로써 후행 확률 P(W|X)를 최대화하는 탐욕적 캐스케ading 디코더를 구현한다.
훈련 데이터의 정확도를 향상시키기 위해 음성 신호를 0.9배와 1.1배로 스케일링하는 속도 왜곡을 적용한다.
입력의 시간 해상도에 민감도를 평가하기 위해 다양한 프레임 레이트(30ms, 50ms, 70ms)에서 성능을 평가한다.

실험 결과

연구 질문

RQ1음절 기반 모델링에 적용했을 때 트랜스포머 아키텍처가 중국어 음성 인식에서 뛰어난 성능을 내는가?
RQ2순서 기반 트랜스포머 음성 인식에서 음절 기반 모델링이 CI-음소 기반 모델링보다 우수한가?
RQ3탐욕적 캐스케ading 디코더가 서브워드 시퀀스(음절 또는 CI-음소)를 단어 시퀀스로 효과적으로 변환하여 CER 향상에 기여하는가?
RQ4속도 왜곡을 통한 데이터 증강이 음절 기반 및 CI-음소 기반 모델의 성능에 어떤 영향을 미치는가?
RQ5프레임 레이트는 중국어 트랜스포머 기반 음성 인식 모델의 성능에 어떤 영향을 미치는가?

주요 결과

음절 기반 트랜스포머 모델은 문자 오류율(CER)이 28.77%로, 최신 기술 수준의 모델들과 경쟁 가능한 성능을 보였다.
동일한 데이터셋에서 음절 기반 모델은 CI-음소 기반 모델보다 2% 이상 뛰어나 CER 30.65%를 기록했다.
속도 왜곡이 음절 기반 모델의 성능을 크게 향상시켰으며, CER를 29.87%에서 28.77%로 감소시켰다. 반면 CI-음소 기반 모델에는 약간의 성능 저하를 초래했다.
두 모델 모두 프레임 레이트가 증가함에 따라 성능이 저하되었으며, 50ms에서 70ms로 올라갈 때 급격한 감소가 관찰되어 30–50ms 프레임 레이트에서 최적의 성능을 보였다.
탐욕적 캐스케ading 디코더는 서브워드에서 단어로의 매핑을 활용해 단어 수준의 인식 성능을 향상시키며, 전체 후행 확률 추정을 개선하는 데 효과적이었다.
트랜스포머 모델은 중국어 음성 인식에서 뛰어난 성능을 보였으며, 자원이 제한된 언어나 음절 기반 언어에서 순서 기반 모델링에 적합함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.