[논문 리뷰] Optimizing Speech Recognition For The Edge
본 논문은 가지치기를 통한 최적화와 대체 RNN 토폴로지(CIFG-LSTM 및 SRU), 양자화를 통해 엔드-투-엔드 온디바이스 음성 인식을 제시하여, 경쟁력 있는 WER를 달성하는 매우 작은 모델을 제시한다.
While most deployed speech recognition systems today still run on servers, we are in the midst of a transition towards deployments on edge devices. This leap to the edge is powered by the progression from traditional speech recognition pipelines to end-to-end (E2E) neural architectures, and the parallel development of more efficient neural network topologies and optimization techniques. Thus, we are now able to create highly accurate speech recognizers that are both small and fast enough to execute on typical mobile devices. In this paper, we begin with a baseline RNN-Transducer architecture comprised of Long Short-Term Memory (LSTM) layers. We then experiment with a variety of more computationally efficient layer types, as well as apply optimization techniques like neural connection pruning and parameter quantization to construct a small, high quality, on-device speech recognizer that is an order of magnitude smaller than the baseline system without any optimizations.
연구 동기 및 목표
- 정확도를 유지하면서 음성인식의 서버 중심에서 에지 장치로의 전환을 촉진한다.
- 가지치기, 아키텍처 변형, 양자화의 세 가지 주요 최적화 축을 탐구하여 작고 실시간 온디바이스 모델을 구축한다.
- 다양한 데이터셋에서 최첨단 RNN-T 모델에 대해 이 기법들의 조합을 평가한다.
제안 방법
- 가중치 희소성을 높이면서 프루닝된 가중치를 회복 가능하게 하는 자동 점진적 프루닝 알고리즘을 개발한다.
- RNN-T 프레임워크 내에서 LSTM, CIFG-LSTM, SRU 셀 토폴로지를 비교한다.
- 온디바이스 추론 효율화를 위해 두 가지 양자화 스킴(하이브리드 8-비트/부동소수 및 정수 양자화)을 적용한다.
- CPU 추론 속도를 높이고 온디바이스 실행을 지원하기 위해 8x1 블록 희소 구조를 사용한다.
실험 결과
연구 질문
- RQ1공격적(강력한) 프루닝이 에지에서 제공되는 음성 인식에서 정확도 손실을 최소화하면서 모델 크기를 실질적으로 줄일 수 있는가?
- RQ2인코더/디코더 역할에서 CIFG-LSTM 및 SRU 아키텍처가 전통적인 LSTM의 실용적 대체가 될 수 있는가?
- RQ3양자화 방법이 모바일 CPU에서 실시간 성능을 제공하면서 정확도를 보존하는가?
주요 결과
| Sparsity | % Params (M) | % Baseline | VoiceSearch WER | YouTube WER | Telephony WER |
|---|---|---|---|---|---|
| 0% | 122.1 | 100% | 6.6 | 19.5 | 8.1 |
| 50% | 69.7 | 57% | 6.7 | 20.3 | 8.2 |
| 70% | 48.7 | 39.9% | 7.1 | 20.6 | 8.5 |
| 80% | 38.2 | 31.3% | 7.4 | 21.2 | 8.9 |
- 프루닝은 데이터셋 전반에서 상당한 매개변수 감소를 가져오고 WER에 미미한 영향을 준다(예: 50% 희소성에서 VoiceSearch/YouTube/Telephony의 WER은 각각 6.7/20.3/8.2).
- 인코더의 CIFG-LSTM과 디코더의 희소 SRU는 매개변수를 59% 줄이고 WER 저하가 제한적일 수 있다(7.1/18.9/8.2).
- 양자화(하이브리드 및 정수)도 정확도를 잘 보존한다; 정수 양자화는 Pixel 3 작은 코어에서 부동소수 모델의 실행 시간의 약 30%를 달성한다.
- 50% 희소 CIFG(인코더)와 30% 희소 SRU(디코더)를 결합한 모델이 작은 밀집 LSTM 기준보다 크기가 작고 경쟁력 있는 WER를 유지한다.
- SRU는 디코더에서 LSTM을 대체할 수 있지만 인코더에서는 덜 효과적이며; CIFG-LSTM은 유리한 트레이드오프를 제공한다.
- 특정 조건에서 양자화된 희소 CIFG가 완전 밀집 소형 기준을 능가할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.