QUICK REVIEW

[논문 리뷰] On the Compression of Recurrent Neural Networks with an Application to LVCSR acoustic modeling for Embedded Speech Recognition

Rohit Prabhavalkar, Ouais Alsharif|arXiv (Cornell University)|2016. 03. 25.

Speech Recognition and Synthesis참고 문헌 27인용 수 43

한 줄 요약

이 논문은 임베디드 음성 인식 환경에서 사용되는 순환 신경망(RNN)의 공동 특이값 분해**(SVD)** 기반 압축 기법을 제안한다. 특히, 장기 단기 기억**(LSTM)** 음성 모델을 대상으로 하며, 순환 및 계층 간 가중치 행렬을 동시에 인수분해함으로써 모델 크기를 원래 크기의 1/3으로 줄이며 정확도 손실는 극히 미미하다. 이로 인해 310만 파라미터 모델을 구현해 12.9%의 WER를 달성하였고, 기준 모델 대비 정확도가 0.5% 뿐 떨어지지 않았다.

ABSTRACT

We study the problem of compressing recurrent neural networks (RNNs). In particular, we focus on the compression of RNN acoustic models, which are motivated by the goal of building compact and accurate speech recognition systems which can be run efficiently on mobile devices. In this work, we present a technique for general recurrent model compression that jointly compresses both recurrent and non-recurrent inter-layer weight matrices. We find that the proposed technique allows us to reduce the size of our Long Short-Term Memory (LSTM) acoustic model to a third of its original size with negligible loss in accuracy.

연구 동기 및 목표

메모리 및 계산 자원이 제한된 모바일 기기에서 큰 정확도를 가진 RNN 음성 모델을 구현하는 데 도전하는 문제를 해결하기 위해.
기기 내 음성 인식을 위한 정확도 저하 없이 모델 크기와 계산 비용을 줄이기 위해.
기존의 행렬 인수분해 기법을 일반화하여 RNN 내 순환 및 비순환 가중치 행렬을 동시에 압축하기 위해.
실제 임베디드 음성 인식 환경에서 SVD 기반 압축 기법의 효과성을 평가하기 위해.
모델 압축과 양자화를 통해 모바일 기기에서 효율적이고 실시간 음성 인식을 가능하게 하기 위해.

제안 방법

각 RNN 레이어에서 순환 가중치 행렬 $W^{l}_{h}$ 와 계층 간 가중치 행렬 $W^{l-1}_{x}$ 에 대해 잘라낸 특이값 분해**(truncated SVD)** 를 적용한다.
각 레이어에서 압축 행렬의 질량 $r^{l}$ 은 $W^{l}_{h}$ 의 SVD에서 설명된 분산의 비율 $\tau$ 를 유지함으로써 결정되며, 식 (7)을 사용한다.
압축된 모델은 도메인 내 데이터를 사용해 연결형 시간 분류**(CTC)** 와 순서 최소 베이즈 위험**(sMBR)** 기준으로 미세조정된다.
이 방법은 이전 연구**(Xue 등 [8])** 를 일반화하여 순환 및 계층 간 가중치를 별도로 다루는 것이 아니라 동시에 압축한다.
이 기법은 Google 트래픽 데이터에서 확보한 대규모 다중 스타일의 낙서 데이터셋을 기반으로 훈련된 LSTM 음성 모델에 적용된다.
모델 압축은 임베디드 배포를 위한 메모리 및 계산 요구량을 추가로 줄이기 위해 가중치 양자화와 결합된다.

실험 결과

연구 질문

RQ1RNN 내 순환 및 계층 간 가중치 행렬을 공동으로 SVD 기반으로 압축할 경우, 모델 크기를 크게 줄일 수 있으며 정확도 손실는 극히 미미한가?
RQ2설명된 분산 임계값 $\tau$ 의 선택이 모델 압축과 인식 정확도 사이의 트레이드오프에 어떻게 영향을 미치는가?
RQ3제안된 압축 기법이 모바일 하드웨어에서 실시간 기기 내 음성 인식을 가능하게 하는가?
RQ4순환 및 비순환 가중치를 동시에 압축하는 것이 개별 가중치 행렬을 별도로 압축하는 것보다 우월한가?
RQ5LSTM 음성 모델을 원래 크기의 1/3으로 압축할 경우 성능 저하는 얼마나 발생하는가?

주요 결과

모델은 원래 크기의 1/3으로 압축되었으며(970만에서 310만 파라미터로), 단어 오류율**(WER)** 이 0.5% 증가하여 12.4%에서 12.9%로 상승하였다.
$\tau = 0.6$ 일 때, 모델은 310만 파라미터 크기로 12.9% WER를 달성하였으며, 기준 모델 대비 310만 파라미터 감소와 67%의 크기 감소를 기록하였다.
$\tau \geq 0.7$ 일 경우, WER는 기준 모델과 0.3% 이내로 유지되어 중간 수준의 압축에서도 정확도 손실가 거의 없음을 시사한다.
$\tau \leq 0.5$ 일 경우 성능 저하가 심각하게 발생하였으며, $\tau = 0.5$ 에서 WER는 13.2%로 상승하여 모델의 정밀도가 급격히 떨어지는 것으로 나타났다.
같은 파라미터 예산 하에서 각 레이어의 분산 기반 질량 선택이 동일 질량 압축 기법보다 더 우수한 성능을 내는 것으로 나타났다.
압축된 모델은 가중치 양자화와 결합되었을 때 최근 모바일 기기에서 실시간보다 훨씬 빠른 속도로 실행되어 실질적인 기기 내 배포가 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.