Skip to main content
QUICK REVIEW

[논문 리뷰] Transferring Knowledge from a RNN to a DNN

William Chan, Nan Rosemary Ke|arXiv (Cornell University)|2015. 04. 07.
Speech Recognition and Synthesis참고 문헌 11인용 수 55
한 줄 요약

이 논문은 자원이 제한된 임베디드 ASR 시스템에서 성능을 향상시키기 위해 대규모 RNN 음성 모델에서 소형 DNN로 지식을 전이하는 방법을 제안한다. RNN의 소프트 정렬과 소형 DNN의 출력 간 Kullback-Leibler 발산을 최소화함으로써, 추가적인 추론 비용 없이 WSJ eval92 세트에서 WER을 4.54%에서 3.93%로 감소시켜 상대적으로 13% 향상시켰다.

ABSTRACT

Deep Neural Network (DNN) acoustic models have yielded many state-of-the-art results in Automatic Speech Recognition (ASR) tasks. More recently, Recurrent Neural Network (RNN) models have been shown to outperform DNNs counterparts. However, state-of-the-art DNN and RNN models tend to be impractical to deploy on embedded systems with limited computational capacity. Traditionally, the approach for embedded platforms is to either train a small DNN directly, or to train a small DNN that learns the output distribution of a large DNN. In this paper, we utilize a state-of-the-art RNN to transfer knowledge to small DNN. We use the RNN model to generate soft alignments and minimize the Kullback-Leibler divergence against the small DNN. The small DNN trained on the soft RNN alignments achieved a 3.93 WER on the Wall Street Journal (WSJ) eval92 task compared to a baseline 4.54 WER or more than 13% relative improvement.

연구 동기 및 목표

  • 제한된 계산 능력을 가진 임베디드 플랫폼에 고성능 ASR 모델을 구현하는 데 도전하는 것.
  • 임베디드 배포에 실용적인 소형 DNN의 단어 오류률(WER)을 향상시키는 것.
  • 하드 GMM 정렬의 한계를 극복하기 위해 최신 RNN 모델에서 유도한 더 정보가 풍부한 소프트 정렬을 사용하는 것.
  • 소형 DNN 훈련에서 RNN 전문가로부터의 지식 전이가 DNN 전문가로부터의 전이를 능가할 수 있음을 보여주는 것.
  • 지식 전이 과정에서 성능을 제한하는 요인이 소형 모델의 모델 용량인지, 소프트 정렬 레이블의 품질인지 탐색하는 것.

제안 방법

  • 소프트 정렬 분포를 생성하기 위해 지식 소스로 사용할 대규모 최신 RNN 음성 모델을 훈련하여 음성 상태에 대한 소프트 정렬 분포를 생성한다.
  • RNN의 출력 사후확률을 소프트 레이블로 사용하여 소형 DNN를 훈련하고, RNN과 DNN의 출력 분포 간 Kullback-Leibler(KL) 발산을 최소화한다.
  • 저확률 상태에서 오염되는 노이즈를 방지하기 위해 RNN 출력 분포에 상위 98% 확률 임계값을 적용하여 가장 확신 있는 예측에 집중한다.
  • 하드 GMM 정렬 대신 RNN의 소프트 정렬 기반으로 교차 엔트로피 손실을 사용하여 소형 DNN를 훈련한다.
  • 조기 정지 기준으로 dev93 세트를 사용하고, 최적화 지표로 교차 엔트로피 오차(CSE)를 적용한다.
  • 하드 GMM, 하드 RNN, 소프트 RNN, 소프트 DNN 정렬을 포함한 여러 훈련 레이블 간 성능을 비교한다.

실험 결과

연구 질문

  • RQ1대규모 RNN에서의 지식 전이가 소형 DNN의 ASR 작업 성능 향상에 기여할 수 있는가?
  • RQ2RNN에서 유도한 소프트 정렬이 DNN 또는 하드 GMM 정렬보다 소형 DNN 훈련에서 더 우수한 성능을 내는가?
  • RQ3RNN의 소프트 정렬 품질이 소형 DNN의 일반화 능력과 WER에 미치는 영향은 무엇인가?
  • RQ4지식 전이 과정에서 성능 저하의 주요 원인이 소형 DNN의 모델 용량인지, 소프트 정렬 레이블의 품질인지인가?
  • RQ5RNN 정렬에서 상위 확률 선택이 최종 모델 성능에 미치는 영향은 무엇인가?

주요 결과

  • 대규모 RNN의 소프트 정렬을 기반으로 훈련한 소형 DNN는 WSJ eval92 세트에서 3.93%의 WER을 달성하여, 하드 GMM 정렬 기반 기준선 4.54% 대비 상대적으로 13% 향상시켰다.
  • 소프트 RNN 정렬 기반으로 훈련한 소형 DNN는 하드 GMM 정렬 기반으로 훈련한 대규모 RNN 모델보다 더 낮은 교차 엔트로피 오차(CSE: 1.24617)를 기록하여 dev93 세트에서 더 나은 최적화를 보였다.
  • 소프트 RNN 정렬 기반 소형 DNN는 소프트 DNN 정렬 기반 소형 DNN(4.27% WER)보다 성능이 뛰어나, RNN 소프트 정렬이 디스틸레이션에 더 정보가 풍부하다는 것을 시사한다.
  • RNN 정렬의 상위 1개 확률만을 사용하여 훈련한 소형 DNN는 GMM 정렬보다 성능이 열 劣하므로, 소프트 레이블에 다수의 고확률 상태를 유지하는 것이 중요하다는 점을 강조한다.
  • 소프트 RNN 정렬 기반 소형 DNN는 dev93 세트에서 대규모 RNN 모델보다 더 낮은 CSE를 기록하여 과적합 또는 분포 이탈 가능성을 시사하지만, WER는 여전히 뛰어나다.
  • 결과는 RNN 소프트 정렬의 품질이 디스틸레이션 성공의 핵심 요소이며, 이 설정에서는 모델 용량이 주요 성능 저하 요인이 아닐 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.