QUICK REVIEW

[논문 리뷰] EdgeSpeechNets: Highly Efficient Deep Neural Networks for Speech Recognition on the Edge

Zhong Qiu Lin, Audrey G. Chung|arXiv (Cornell University)|2018. 10. 18.

Speech Recognition and Synthesis참고 문헌 10인용 수 31

한 줄 요약

EdgeSpeechNets는 모바일 및 IoT 기기 등 자원이 제한된 엣지 디바이스에서의 음성 인식을 위한 고성능 딥 뉴럴 네트워크를 설계하기 위해 인간과 기계의 협업 설계 전략을 도입한다. 인간이 주도하는 아키텍처 프로토타이핑과 기계가 주도하는 생성적 합성 기반 설계를 융합함으로써, 기존 모델 대비 최대 7.8배 작아진 모델 크기, 최대 36배 감소한 Multiply-Add 연산량, 최대 10배 감소한 추론 지연 시간을 기록하면서도 Google Speech Commands 데이터셋에서 최신 기준 성능(최대 약 97%)을 달성한다.

ABSTRACT

Despite showing state-of-the-art performance, deep learning for speech recognition remains challenging to deploy in on-device edge scenarios such as mobile and other consumer devices. Recently, there have been greater efforts in the design of small, low-footprint deep neural networks (DNNs) that are more appropriate for edge devices, with much of the focus on design principles for hand-crafting efficient network architectures. In this study, we explore a human-machine collaborative design strategy for building low-footprint DNN architectures for speech recognition through a marriage of human-driven principled network design prototyping and machine-driven design exploration. The efficacy of this design strategy is demonstrated through the design of a family of highly-efficient DNNs (nicknamed EdgeSpeechNets) for limited-vocabulary speech recognition. Experimental results using the Google Speech Commands dataset for limited-vocabulary speech recognition showed that EdgeSpeechNets have higher accuracies than state-of-the-art DNNs (with the best EdgeSpeechNet achieving ~97% accuracy), while achieving significantly smaller network sizes (as much as 7.8x smaller) and lower computational cost (as much as 36x fewer multiply-add operations, 10x lower prediction latency, and 16x smaller memory footprint on a Motorola Moto E phone), making them very well-suited for on-device edge voice interface applications.

연구 동기 및 목표

자원이 제한된 엣지 디바이스(예: 스마트폰, IoT 기기)에서 음성 인식을 위한 딥 러닝 모델을 구현하는 데 도전하는 것.
수작업으로 설계된 DNN의 한계를 극복하기 위해 인간의 전문 지식과 자동화된 기계 기반 아키텍처 탐색을 통합하는 것.
제한된 어휘량 음성 인식에 특화된 고효율, 저발자국 딥 뉴럴 네트워크(EdgeSpeechNets)의 가족을 개발하는 것.
엣지 하드웨어에서 정확도, 모델 크기, 계산 비용, 추론 지연 시간 간의 우수한 트레이드오프를 달성하는 것.

제안 방법

방법론은 기존 원칙을 기반으로 한 인간 주도 설계 프로토타이핑으로 시작한다: MFCC 입력 표현 방식, 배치 정규화를 적용한 잔차 블록, 그리고 글로벌 평균 풀링 레이어 이후로 밀도 연결층과 소프트맥스 출력 레이어를 포함한다.
기계 주도의 설계 탐색을 위해 생성적 합성 프레임워크를 활용하여 커널 크기, 필터 수, 레이어 깊이 등의 아키텍처 초모수에 대한 세밀한 자동 탐색을 가능하게 한다.
특정 요구사항(모델 크기, FLOPs, 지연 시간 등)을 고려하여 설계 공간을 제약함으로써 현장 적용에 적합한 설계를 보장한다.
최종 EdgeSpeechNets는 정확도, 효율성, 하드웨어 제약 조건을 최적화하는 검색 과정을 통해 생성되며, Google Speech Commands 데이터셋에서 검증된다.
이 접근법은 인간 전문 지식이 초기 아키텍처 블루프린트를 정의하고, 기계 학습이 광범위한 아키텍처 변형 공간을 탐색하는 하이브리드 전략을 활용한다.
최종적으로 생성된 모델들은 실세계 성능 측정을 위해 TensorFlow Lite를 사용하여 Motorola Moto E 스마트폰에서 평가되며, 추론 지연 시간과 메모리 프로파일을 포함한 실제 성능이 측정된다.

실험 결과

연구 질문

RQ1인간-기계 협업 설계 전략이 순수 수작업 또는 순수 자동화된 접근 방식보다 효율적인 DNN 설계에 앞서나갈 수 있는가?
RQ2제한된 어휘량 음성 인식에서 정확도를 유지하거나 초월하면서도, 모델의 효율성(파라미터 수, FLOPs, 지연 시간)을 얼마나 향상시킬 수 있는가?
RQ3생성적 합성 기반 접근이 거시적 초모수 조정을 넘어서, 새로운 효율적인 아키텍처를 탐색할 수 있는 정도는 어느 정도인가?
RQ4제안된 방법이 기존 최신 기준 모델인 res15 및 tpool2보다 훨씬 작고 빠른 모델을 생성할 수 있는가?
RQ5소비자용 스마트폰에서 생성된 EdgeSpeechNets의 실세계 추론 성능은 어떠한가?

주요 결과

EdgeSpeechNet-A는 테스트 정확도 96.8%를 달성하여 최신 기준인 res15 모델을 1% 뛰어넘었으며, 파라미터 수는 2.2배 적고, Multiply-Add 연산은 2.6배 적게 사용했다.
EdgeSpeechNet-B는 res15보다 0.5% 높은 정확도를 기록했고, 파라미터 수는 5.4배 적고, Multiply-Add 연산은 7.1배 적게 사용했다.
EdgeSpeechNet-C는 res15보다 0.4% 높은 정확도를 확보했으며, 파라미터 수는 7.8배 적고, Multiply-Add 연산은 10.7배 적게 사용해 최고의 모델 크기 효율성을 입증했다.
EdgeSpeechNet-D는 res15와 동일한 정확도를 유지했지만, Multiply-Add 연산은 36.5배 적게 사용해 테스트된 모든 모델 중 가장 낮은 계산 비용을 기록했다.
Motorola Moto E 스마트폰에서 EdgeSpeechNet-D는 평균 예측 지연 시간 34ms, 메모리 프로파일 1MB를 기록했으며, res15 대비 지연 시간은 10배 감소하고 메모리 프로파일은 16.5배 작아졌다.
EdgeSpeechNet-D는 NetScore 106.67을 기록해 res15의 NetScore를 20점 이상 초월했으며, 정확도, 크기, 계산 비용 간의 균형 잡힌 우수한 성능을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.