QUICK REVIEW

[논문 리뷰] Small-footprint Keyword Spotting Using Deep Neural Network and Connectionist Temporal Classifier

Zhiming Wang, Xiaolong Li|arXiv (Cornell University)|2017. 09. 12.

Speech Recognition and Synthesis참고 문헌 10인용 수 23

한 줄 요약

이 논문은 키워드 전용 학습 데이터가 부족한 문제를 해결하기 위해 딥 뉴럴 네트워크(DNN)와 커넥티스트리널 타임클래시파이어(CTC)를 사용한 소형 프로파일 키워드 스핏팅(KWS) 시스템을 제안한다. 대규모 LVCSR 코퍼스를 활용하고 음소 수준의 모델링을 통해 엔드 투 엔드 학습을 가능하게 함으로써, DNN 기반 기준 모델과 경쟁 가능한 성능을 달성하면서도 동일한 계산 복잡도를 유지하고, 사용자 정의 트리거 단어를 지원한다.

ABSTRACT

Mainly for the sake of solving the lack of keyword-specific data, we propose one Keyword Spotting (KWS) system using Deep Neural Network (DNN) and Connectionist Temporal Classifier (CTC) on power-constrained small-footprint mobile devices, taking full advantage of general corpus from continuous speech recognition which is of great amount. DNN is to directly predict the posterior of phoneme units of any personally customized key-phrase, and CTC to produce a confidence score of the given phoneme sequence as responsive decision-making mechanism. The CTC-KWS has competitive performance in comparison with purely DNN based keyword specific KWS, but not increasing any computational complexity.

연구 동기 및 목표

임베디드 키워드 스핏팅 시스템에 대한 키워드 전용 학습 데이터 부족 문제를 해결한다.
대규모 도메인 특화 데이터 수집이 필요 없이도 사용자 정의 트리거 단어를 영구적으로 유연하게 지원한다.
메모리와 계산 프로파일이 최소한인 전력 제약이 있는 모바일 기기용 저복잡도 KWS 시스템을 개발한다.
일반 목적의 LVCSR 코퍼스를 활용해 모델을 사전 학습시켜 고비용의 키워드 전용 데이터 의존도를 낮춘다.
기존 DNN 기반 KWS와 비교해 경쟁 가능한 성능를 달성하면서도 동일한 계산 복잡도를 유지한다.

제안 방법

원시 음향 특징(40차원 로그 필터뱅크 에너지)을 문맥 독립적(CI) 음소 단위의 후행 확률로 매핑하기 위해 DNN를 사용하며, CTC에 필요한 빈 칸 기호를 포함한다.
CTC를 문장 수준의 점수 계산 메커니즘으로 활용하여 주어진 키워드의 음소 시퀀스에 대한 신뢰도 점수를 계산함으로써 강제 정렬이 필요 없는 엔드 투 엔드 학습을 가능하게 한다.
지연 시간을 줄이면서도 분류 능력을 유지하기 위해 비대칭적 문맥 스택(과거 10프레임, 향후 5프레임)을 적용한다.
스택된 특징에 대해 시프트된 평균 및 분산 정규화를 적용하여 정확도를 향상시키고 계산 부담을 줄인다.
런타임 비용을 줄이기 위해 음성 활동 검출(VAD) 영역 동안에만 시스템을 배포한다.
재학습 없이도 성능 향상을 위해 제한된 키워드 전용 데이터에서 적응형 미세조정을 채택한다.

실험 결과

연구 질문

RQ1키워드 전용 데이터가 부족한 상황에서 대규모 LVCSR 코퍼스를 효과적으로 활용해 키워드 스핏팅 시스템을 학습시킬 수 있는가?
RQ2DNN 기반 KWS 시스템과 비교해 경쟁 가능한 성능를 달성하면서도 CTC 기반 KWS 프레임워크가 낮은 계산 복잡도를 유지하는가?
RQ3재학습 없이도 CTC-KWS 모델이 어떤 사용자 정의 트리거 단어에도 일반화 가능한가?
RQ4모델 크기와 가짜 경고 비율이 변할 때 CTC-KWS의 성능이 기준 DNN 기반 KWS와 어떻게 비교되는가?
RQ5제한된 키워드 전용 데이터에서의 적응형 미세조정이 시스템의 탐지 정확도 향상에 얼마나 기여하는가?

주요 결과

CTC-KWS는 파rameter 수가 적더라도 더 높은 데이터 효율성 덕분에 모든 모델 크기에서 기준 DNN 기반 KWS를 능가한다.
1.5%의 가짜 경고 비율에서 CTC-KWS는 특히 모델 크기가 증가할수록 기준 모델보다 뛰어난 성능를 보였다.
CTC-KWS는 기준 DNN-KWS와 동일한 계산 복잡도를 유지한다. 두 시스템의 파라미터 수가 거의 동일하기 때문이다.
제한된 키워드 전용 데이터에서의 적응형 미세조정은 특히 낮은 가짜 경고 비율에서 일관된 성능 향상을 이끌어냈다.
CTC 모델은 음향 특징과 음소 시퀀스 사이의 의미 있는 정렬을 자동으로 학습하며, 빈 칸 단위는 불확실성 또는 침묵을 나타낸다.
ARM A8(512MB, 1GHz)에서 실시간 성능를 달성하여 실시간 인식 요소(RTF)가 0.2218이며, MIPS(128MB, 1GHz)에서는 0.3을 기록했고, 메모리 프로파일은 0.5MB에서 1.5MB 사이였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.