QUICK REVIEW

[논문 리뷰] Temporal Convolution for Real-time Keyword Spotting on Mobile Devices

Seungwoo Choi, Seokjun Seo|arXiv (Cornell University)|2019. 04. 08.

Speech Recognition and Synthesis참고 문헌 20인용 수 42

한 줄 요약

본 논문은 모바일 기기에서의 실시간 키워드 인식을 위한 시계열 컨볼루션 기반 CNN인 TC-ResNet을 제안하며, Google Speech Commands 데이터셋에서 높은 정확도와 함께 최대 385배의 큰 속도향상을 달성하고 훈련 및 벤치마킹용 전체 코드를 공개한다.

ABSTRACT

Keyword spotting (KWS) plays a critical role in enabling speech-based user interactions on smart devices. Recent developments in the field of deep learning have led to wide adoption of convolutional neural networks (CNNs) in KWS systems due to their exceptional accuracy and robustness. The main challenge faced by KWS systems is the trade-off between high accuracy and low latency. Unfortunately, there has been little quantitative analysis of the actual latency of KWS models on mobile devices. This is especially concerning since conventional convolution-based KWS approaches are known to require a large number of operations to attain an adequate level of performance. In this paper, we propose a temporal convolution for real-time KWS on mobile devices. Unlike most of the 2D convolution-based KWS approaches that require a deep architecture to fully capture both low- and high-frequency domains, we exploit temporal convolutions with a compact ResNet architecture. In Google Speech Command Dataset, we achieve more than extbf{385x} speedup on Google Pixel 1 and surpass the accuracy compared to the state-of-the-art model. In addition, we release the implementation of the proposed and the baseline models including an end-to-end pipeline for training models and evaluating them on mobile devices.

연구 동기 및 목표

모바일 기기에서의 실시간 키워드 인식에 대해 정확하고 지연이 낮은 모델을 동기 부여한다.
연산량을 줄이면서 정확도를 유지하거나 개선하기 위한 시계열 컨볼루션 아키텍처(TC-ResNet)를 제안한다.
2D 컨볼루션 기반 기법 대비 모바일 하드웨어에서 실질적인 속도향상을 시연한다.
훈련, 평가 및 모바일 벤치마킹을 위한 엔드 투 엔드 파이프라인과 공개 코드를 제공한다.
지연시간과 정확도에 대한 시계열 컨볼루션의 영향과 전통적인 2D 컨볼루션 간의 비교를 정량적으로 분석한다.

제안 방법

입력을 t x 1 x f로 재형성하고 시계열 컨볼루션을 적용하여 MFCC 특성을 1D 시계열로 처리한다.
첫 번째 층에서 m=3, 이후 층에서 m=9인 커널의 1D ResNet 기반 백본(TC-ResNet)을 채택하고 컨볼루션에 바이어스를 두지 않으며, 학습 가능한 스케일/시프트가 있는 배치 정규화를 사용한다.
잔차 연결 및 차원 매칭 숏컷을 포함하고, 너비 배수를 사용해 TC-ResNet8/14 변형을 생성한다.
표준 증강(잡음, 임의 시프팅)과 MFCC 특성(40 MFCC, 30 ms 윈도우, 10 ms 스트라이드)을 사용해 Google Speech Commands 데이터셋으로 학습 및 평가한다.
실제 추론 시간 측정을 위해 Google Pixel 1에서 벤치마크를 수행하고 정확도와 함께 FLOPs, 파라미터 수 및 지연 시간을 보고한다.

실험 결과

연구 질문

RQ1시계열 컨볼루션이 정확도를 해치지 않으면서 모바일 키워드 인식의 연산량과 지연시간을 줄일 수 있는가?
RQ2TC-ResNet은 정확도, FLOPs, 파라미터 수 및 실제 모바일 추론 시간 측면에서 2D 컨볼루션 기반 기법과 어떻게 비교되는가?
RQ3너비 배수 및 네트워크 깊이가 모바일 디바이스에서의 정확도와 지연시간 간의 트레이드오프에 어떤 영향을 미치는가?

주요 결과

TC-ResNet8은 Pixel 1에서 1.1 ms 추론 시간과 3.0M FLOPs, 66K 파라미터로 96.1% 정확도를 달성한다.
TC-ResNet8-1.5는 2.8 ms, 6.6M FLOPs, 145K 파라미터에서 96.2% 정확도이다.
TC-ResNet14는 2.5 ms, 6.1M FLOPs, 137K 파라미터에서 96.2% 정확도이다.
TC-ResNet14-1.5는 5.7 ms, 13.4M FLOPs, 305K 파라미터에서 96.6% 정확도이다.
CNN-1과 비교하면 TC-ResNet8은 29배의 속도향상과 5.4 퍼센트포인트의 정확도 이점을 제공한다.
DS-CNN-S/M/L과 비교하면 TC-ResNet8은 각각 1.5x/4.7x/15.3x의 속도향상을 제공하며 정확도는 각각 +1.7/+1.2/+0.7 퍼센트포인트 증가한다.
TC-ResNet8은 Res15 기준 대비 385x의 속도향상을 보이고 정확도는 0.3 퍼센트포인트 상승하며 시계열 컨볼루션의 효과를 강조한다.
일치하는 파라미터를 가진 2D ResNet8 변형(2D-ResNet8)은 TC-ResNet8보다 9.2배 느리며, 풀링 변형(2D-ResNet8-Pool)은 더 빨라지지만 정확도는 1.2 퍼센트포인트 하락하고 여전히 TC-ResNet8보다 3.2배 느리다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.