Skip to main content
QUICK REVIEW

[논문 리뷰] TinySpeech: Attention Condensers for Deep Speech Recognition Neural Networks on Edge Devices

Alexander Wong, Mahmoud Famouri|arXiv (Cornell University)|2020. 08. 10.
Speech Recognition and Synthesis참고 문헌 30인용 수 29
한 줄 요약

이 논문은 자가 포함된, 독립적인 자기주의 모듈인 어텐션 컨덴서를 소개한다. 이는 지역적이고 교차 채널 활성화 관계를 압축된 임베딩으로 학습하여, 매우 효율적인 온디바이스 음성 인식을 가능하게 한다. 제안된 TinySpeech 네트워크는 이러한 모듈을 기반으로 하며 기계 기반 설계 최적화를 통해 구축되어, 이전 연구 대비 최대 507배 적은 파라미터 수, 48배 적은 FLOPs, 2028배 낮은 가중치 메모리 사용량을 달성하면서도 Google Speech Commands 데이터셋에서 높은 정확도를 유지한다.

ABSTRACT

Advances in deep learning have led to state-of-the-art performance across a multitude of speech recognition tasks. Nevertheless, the widespread deployment of deep neural networks for on-device speech recognition remains a challenge, particularly in edge scenarios where the memory and computing resources are highly constrained (e.g., low-power embedded devices) or where the memory and computing budget dedicated to speech recognition is low (e.g., mobile devices performing numerous tasks besides speech recognition). In this study, we introduce the concept of attention condensers for building low-footprint, highly-efficient deep neural networks for on-device speech recognition on the edge. An attention condenser is a self-attention mechanism that learns and produces a condensed embedding characterizing joint local and cross-channel activation relationships, and performs selective attention accordingly. To illustrate its efficacy, we introduce TinySpeech, low-precision deep neural networks comprising largely of attention condensers tailored for on-device speech recognition using a machine-driven design exploration strategy, with one tailored specifically with microcontroller operation constraints. Experimental results on the Google Speech Commands benchmark dataset for limited-vocabulary speech recognition showed that TinySpeech networks achieved significantly lower architectural complexity (as much as $507 imes$ fewer parameters), lower computational complexity (as much as $48 imes$ fewer multiply-add operations), and lower storage requirements (as much as $2028 imes$ lower weight memory requirements) when compared to previous work. These results not only demonstrate the efficacy of attention condensers for building highly efficient networks for on-device speech recognition, but also illuminate its potential for accelerating deep learning on the edge and empowering TinyML applications.

연구 동기 및 목표

  • 저전력 임베디드 시스템과 메모리 및 계산 예산이 제한된 모바일 디바이스와 같은 자원이 제한된 엣지 환경에서 깊이 신경망을 온디바이스 음성 인식에 구현하는 데 도전하는 데 목적을 둔다.
  • 기존의 컨volutional 신경망(CNN)-기반 아키텍처의 복잡성 제한을 극복하기 위해, 큰 컨볼루션 모듈에 대한 의존도를 줄이는 새로운 어텐션 기반 설계 패턴을 도입한다.
  • 기계 기반 설계 탐색 전략을 활용하여, 제한된 어휘의 음성 인식에 특화된 매우 효율적이고 저정밀도의 깊이 신경망을 개발한다.
  • 정확도를 훼손하지 않으면서 아키텍처와 계산 복잡도를 최소화하여 엣지 디바이스에서 실시간으로 개인정보 보호가 보장되고 클라우드에 의존하지 않는 음성 인식을 가능하게 한다.

제안 방법

  • 지역적이고 교차 채널 활성화 관계를 나타내는 압축된 임베딩을 학습하는 자가 포함된, 독립적인 모듈인 어텐션 컨덴서를 도입한다.
  • 강한 활성화 근처의 활성화에 중점을 두어 선택적 어텐션을 수행하도록 어テン션 컨덴서를 설계하여 효율성과 표현 품질을 향상시킨다.
  • 큰 컨볼루션 모듈의 사용은 희박하게 유지하고 어텐션 컨덴서를 빈번히 사용하여 전체 아키텍처의 복잡도를 감소시키는 깊이 신경망 아키텍처에 통합한다.
  • 최소한의 피트니스와 높은 정확도를 달성하기 위해 네트워크 아키텍처, 하이퍼파라미터, 정밀도(예: 양자화)를 최적화하기 위한 기계 기반 설계 탐색 전략을 적용한다.
  • Google Speech Commands 벤치마크에서 TinySpeech 네트워크를 훈련하고 평가하며, 저정밀도 추론과 엣지 배포 제약 조건을 중점적으로 고려한다.
  • 디자인 단계에서 엄격한 메모리 및 계산 제약 조건을 적용하여 마이크로컨트롤러에서의 작동을 전용으로 최적화한 하나의 변종인 TinySpeech-M을 설계한다.

실험 결과

연구 질문

  • RQ1어텐션 컨덴서는 정확도를 훼손하지 않으면서도 온디바이스 음성 인식을 위한 깊이 신경망의 아키텍처적 및 계산 복잡도를 크게 감소시킬 수 있는가?
  • RQ2제한된 어휘의 음성 인식에서 어텐션 컨덴서의 통합은 기존의 CNN 기반 아키텍처와 비교해 파라미터 수, FLOPs, 메모리 사용량 측면에서 어떻게 다른가?
  • RQ3기계 기반 설계 탐색 전략은 마이크로컨트롤러 수준의 엣지 디바이스에 배포 가능한 저정밀도 신경망을 얼마나 효과적으로 최적화할 수 있는가?
  • RQ4어텐션 컨덴서는 마이크로컨트롤러에서와 같은 극한의 자원 제약 조건에서도 높은 정확도의 음성 인식을 가능하게 할 수 있는가?

주요 결과

  • TinySpeech 네트워크는 기존 최고 수준의 모델인 trad-fpool13 대비 최대 507배 적은 파라미터를 사용하였다.
  • 제안된 네트워크는 최대 48배 적은 승법-가감 연산(FLOPs)을 요구하여 계산 비용을 크게 감소시켰다.
  • 가중치 메모리 요구량은 최대 2028배 감소하여 초저메모리 장치에의 배포를 가능하게 하였다.
  • TinySpeech-M는 trad-fpool13보다 1.4% 높은 정확도를 달성하였고, 약 291배 적은 파라미터와 약 1164배 낮은 가중치 메모리 사용량을 보였다.
  • trad-fpool13 대비 >28.4배 적은 FLOPs를 기록하여 뚜렷한 계산 효율성을 입증하였다.
  • 결과는 어텐션 컨덴서가 정확도, 모델 크기, 추론 비용 사이의 강력한 트레이드오���을 가능하게 하며, 이는 TinyML 응용 분야에 이상적임을 확인시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.