Skip to main content
QUICK REVIEW

[논문 리뷰] Segmental Recurrent Neural Networks for End-to-end Speech Recognition

Liang Lu, Lingpeng Kong|arXiv (Cornell University)|2016. 03. 01.
Speech Recognition and Synthesis참고 문헌 27인용 수 42
한 줄 요약

이 논문은 외부 특징 또는 분할 정보 없이도 종단 간 학습이 가능한 종단 간 음성 인식을 위해 양방향 LSTM 인코더와 제0차 순서의 세그멘탈 조건부 랜덤 필드(CRF)를 함께 훈련시켜 세그멘탈 순환 신경망(RNN)을 제안한다. 이 모델은 원시 음성 특징만을 사용하고 언어 모델 없이도 TIMIT에서 17.3%의 페노트 오류율(PER)을 달성하여 이전의 CRF 기반 시스템을 능가한다.

ABSTRACT

We study the segmental recurrent neural network for end-to-end acoustic modelling. This model connects the segmental conditional random field (CRF) with a recurrent neural network (RNN) used for feature extraction. Compared to most previous CRF-based acoustic models, it does not rely on an external system to provide features or segmentation boundaries. Instead, this model marginalises out all the possible segmentations, and features are extracted from the RNN trained together with the segmental CRF. In essence, this model is self-contained and can be trained end-to-end. In this paper, we discuss practical training and decoding issues as well as the method to speed up the training in the context of speech recognition. We performed experiments on the TIMIT dataset. We achieved 17.3 phone error rate (PER) from the first-pass decoding --- the best reported result using CRFs, despite the fact that we only used a zeroth-order CRF and without using any language model.

연구 동기 및 목표

  • 외부 시스템에 의존하지 않고 특징 추출과 분할을 동시에 학습하는 자가 포함된 종단 간 음성 모델을 개발하기 위해.
  • HMM과 CTC의 한계를 극복하기 위해 공동 훈련을 통해 순서 수준의 종속성을 모델링하는 반-마르코프 CRF를 사용하기 위해.
  • 정답 분할 정보나 외부 특징이 필요 없게 함으로써 이전의 CRF 기반 모델보다 성능을 향상시키기 위해.
  • 종단 간 훈련을 통해 제0차 순서의 세그멘탈 CRF가 언어 모델 없이도 TIMIT에서 최신 기술 수준의 성능을 달성할 수 있음을 입증하기 위해.

제안 방법

  • 모델은 원시 음성 프레임에서 맥락 인식 특징을 추출하기 위해 양방향 LSTM 인코더를 사용한다.
  • 제0차 순서의 세그멘탈 CRF는 출력 레이블과 그들의 세그먼트 경계에 대한 순서 수준의 조건부 확률을 정의한다.
  • 훈련 중에 모든 가능한 분할에 대해 주어진 확률을 최대화함으로써 RNN과 CRF 파라미터를 공동 최적화할 수 있도록 한다.
  • 서브샘플링 네트워크는 CRF 디코딩 이전에 시퀀스 길이를 압축함으로써 계산 비용을 줄인다.
  • 과적합을 방지하기 위해 드롭아웃과 가중치 정규화를 적용하며, 특히 TIMIT와 같은 작은 데이터셋에서 효과적이다.
  • 디코딩은 동적 프로그래밍과 베이머 스위치를 사용하여 학습된 모델 하에서 가장 가능성 있는 레이블 시퀀스를 찾는다.

실험 결과

연구 질문

  • RQ1외부 특징이나 분할 정보 없이도 RNN 인코더와 함께 종단 간으로 세그멘탈 CRF를 효과적으로 훈련시킬 수 있는가?
  • RQ2TIMIT에서 제0차 순서의 세그멘탈 CRF는 고차순서 또는 언어 모델 보강된 시스템과 비교해 어떻게 성능을 내는가?
  • RQ3이 종단 간 설정에서 모델의 깊이, 너비, 정규화가 인식 정확도에 어떤 영향을 미치는가?
  • RQ4RNN과 세그멘탈 CRF를 공동 훈련하는 방식이 외부 시스템이나 제2단계 재평가에 의존하는 이전의 CRF 기반 모델보다 성능이 뛰어나게 되는가?

주요 결과

  • 모델은 원시 음성 특징만을 사용하고 언어 모델 없이도 TIMIT 데이터셋에서 17.3%의 페노트 오류율(PER)을 달성하여 CRF 기반 시스템 중 최신 기술 수준을 설정했다.
  • 6층의 양방향 LSTM(250개 유닛)에 드롭아웃 정규화를 적용한 경우가 가장 우수한 성능을 보였으며, 이는 모델 용량과 정규화의 중요성을 시사한다.
  • 잘 설계된 Kaldi 특징(39차원의 MFCC, LDA, MLLT, SVD)을 사용하면 PER가 17.3%로 감소하여 특징 품질의 영향을 입증했다.
  • 정답 분할 정보나 제2단계 재평가를 사용한 이전의 CRF 시스템의 제1단계 디코딩 결과보다도 성능이 뛰어났다.
  • 언어 모델 없이도 CTC나 어텐션 기반 RNN과 같은 최신 기술 수준의 종단 간 모델들과 경쟁 가능한 성능을 보였다.
  • 제거 실험 결과, 드롭아웃을 포함한 더 큰 모델이 더 잘 일반화되었으며, 정규화가 없는 모델는 작은 TIMIT 데이터셋에서 과적합을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.