QUICK REVIEW

[논문 리뷰] Transferring Knowledge from a RNN to a DNN

William Chan, Nan Rosemary Ke|arXiv (Cornell University)|2015. 04. 07.

Speech Recognition and Synthesis참고 문헌 11인용 수 55

한 줄 요약

이 논문은 자원이 제한된 임베디드 ASR 시스템에서 성능을 향상시키기 위해 대규모 RNN 음성 모델에서 소형 DNN로 지식을 전이하는 방법을 제안한다. RNN의 소프트 정렬과 소형 DNN의 출력 간 Kullback-Leibler 발산을 최소화함으로써, 추가적인 추론 비용 없이 WSJ eval92 세트에서 WER을 4.54%에서 3.93%로 감소시켜 상대적으로 13% 향상시켰다.

ABSTRACT

Deep Neural Network (DNN) acoustic models have yielded many state-of-the-art results in Automatic Speech Recognition (ASR) tasks. More recently, Recurrent Neural Network (RNN) models have been shown to outperform DNNs counterparts. However, state-of-the-art DNN and RNN models tend to be impractical to deploy on embedded systems with limited computational capacity. Traditionally, the approach for embedded platforms is to either train a small DNN directly, or to train a small DNN that learns the output distribution of a large DNN. In this paper, we utilize a state-of-the-art RNN to transfer knowledge to small DNN. We use the RNN model to generate soft alignments and minimize the Kullback-Leibler divergence against the small DNN. The small DNN trained on the soft RNN alignments achieved a 3.93 WER on the Wall Street Journal (WSJ) eval92 task compared to a baseline 4.54 WER or more than 13% relative improvement.

연구 동기 및 목표

제한된 계산 능력을 가진 임베디드 플랫폼에 고성능 ASR 모델을 구현하는 데 도전하는 것.
임베디드 배포에 실용적인 소형 DNN의 단어 오류률(WER)을 향상시키는 것.
하드 GMM 정렬의 한계를 극복하기 위해 최신 RNN 모델에서 유도한 더 정보가 풍부한 소프트 정렬을 사용하는 것.
소형 DNN 훈련에서 RNN 전문가로부터의 지식 전이가 DNN 전문가로부터의 전이를 능가할 수 있음을 보여주는 것.
지식 전이 과정에서 성능을 제한하는 요인이 소형 모델의 모델 용량인지, 소프트 정렬 레이블의 품질인지 탐색하는 것.

제안 방법

소프트 정렬 분포를 생성하기 위해 지식 소스로 사용할 대규모 최신 RNN 음성 모델을 훈련하여 음성 상태에 대한 소프트 정렬 분포를 생성한다.
RNN의 출력 사후확률을 소프트 레이블로 사용하여 소형 DNN를 훈련하고, RNN과 DNN의 출력 분포 간 Kullback-Leibler(KL) 발산을 최소화한다.
저확률 상태에서 오염되는 노이즈를 방지하기 위해 RNN 출력 분포에 상위 98% 확률 임계값을 적용하여 가장 확신 있는 예측에 집중한다.
하드 GMM 정렬 대신 RNN의 소프트 정렬 기반으로 교차 엔트로피 손실을 사용하여 소형 DNN를 훈련한다.
조기 정지 기준으로 dev93 세트를 사용하고, 최적화 지표로 교차 엔트로피 오차(CSE)를 적용한다.
하드 GMM, 하드 RNN, 소프트 RNN, 소프트 DNN 정렬을 포함한 여러 훈련 레이블 간 성능을 비교한다.

실험 결과

연구 질문

RQ1대규모 RNN에서의 지식 전이가 소형 DNN의 ASR 작업 성능 향상에 기여할 수 있는가?
RQ2RNN에서 유도한 소프트 정렬이 DNN 또는 하드 GMM 정렬보다 소형 DNN 훈련에서 더 우수한 성능을 내는가?
RQ3RNN의 소프트 정렬 품질이 소형 DNN의 일반화 능력과 WER에 미치는 영향은 무엇인가?
RQ4지식 전이 과정에서 성능 저하의 주요 원인이 소형 DNN의 모델 용량인지, 소프트 정렬 레이블의 품질인지인가?
RQ5RNN 정렬에서 상위 확률 선택이 최종 모델 성능에 미치는 영향은 무엇인가?

주요 결과

대규모 RNN의 소프트 정렬을 기반으로 훈련한 소형 DNN는 WSJ eval92 세트에서 3.93%의 WER을 달성하여, 하드 GMM 정렬 기반 기준선 4.54% 대비 상대적으로 13% 향상시켰다.
소프트 RNN 정렬 기반으로 훈련한 소형 DNN는 하드 GMM 정렬 기반으로 훈련한 대규모 RNN 모델보다 더 낮은 교차 엔트로피 오차(CSE: 1.24617)를 기록하여 dev93 세트에서 더 나은 최적화를 보였다.
소프트 RNN 정렬 기반 소형 DNN는 소프트 DNN 정렬 기반 소형 DNN(4.27% WER)보다 성능이 뛰어나, RNN 소프트 정렬이 디스틸레이션에 더 정보가 풍부하다는 것을 시사한다.
RNN 정렬의 상위 1개 확률만을 사용하여 훈련한 소형 DNN는 GMM 정렬보다 성능이 열 劣하므로, 소프트 레이블에 다수의 고확률 상태를 유지하는 것이 중요하다는 점을 강조한다.
소프트 RNN 정렬 기반 소형 DNN는 dev93 세트에서 대규모 RNN 모델보다 더 낮은 CSE를 기록하여 과적합 또는 분포 이탈 가능성을 시사하지만, WER는 여전히 뛰어나다.
결과는 RNN 소프트 정렬의 품질이 디스틸레이션 성공의 핵심 요소이며, 이 설정에서는 모델 용량이 주요 성능 저하 요인이 아닐 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.