QUICK REVIEW

[논문 리뷰] Deep Speech: Scaling up end-to-end speech recognition

Awni Hannun, Carl Case|arXiv (Cornell University)|2014. 12. 17.

Speech Recognition and Synthesis참고 문헌 42인용 수 1,513

한 줄 요약

이 논문은 다수의 GPU를 사용하고 광범위한 데이터 합성 기법을 적용해 훈련한 대규모 순환 신경망(RNN) 기반의 엔드 투 엔드 음성 인식 시스템인 Deep Speech를 제시한다. 간단하고 확장 가능한 RNN 아키텍처를 사용해 원시 스펙트로그램을 직접 텍스트로 매핑하고, 대규모이며 노이즈가 섞인 훈련 데이터를 활용함으로써, Switchboard Hub5'00 테스트 세트에서 16.0%의 단어 오류율(WER)을 달성하여 이전에 발표된 결과를 초월하고 노이즈가 많은 환경에서 상용 시스템보다 뛰어난 성능을 보였다.

ABSTRACT

We are proposing a keyword-based query interface for knowledge bases - including relational or deductive databases - based on contextual background knowledge such as suitable join conditions or synonyms. Join conditions could be extracted from existing referential integrity (foreign key) constaints of the database schema. They could also be learned from other, previous database queries, if the database schema does not contain foreign key constraints. Given a textual representation - a word list - of a query to a relational database, one may parse the list into a structured term. The intelligent and cooperative part of our approach is to hypothesize the semantics of the word list and to find suitable links between the concepts mentioned in the query using contextual knowledge, more precisely join conditions between the database tables. We use a knowledge-based parser based on an extension of Definite Clause Grammars (Dcg) that are interweaved with calls to the database schema to suitably annotate the tokens as table names, table attributes, attribute values or relationships linking tables. Our tool DdQl yields the possible queries in a special domain specific rule language that extends Datalog, from which the user can choose one.

연구 동기 및 목표

기존의 수작업으로 설계된 처리 파이프라인을 회피하는 더 단순하고 강력한 음성 인식 시스템을 개발하기 위해.
특수한 노이즈 또는 발화자 적응 구성 요소 없이도 도전적인 음성 인식 작업, 특히 노이즈가 많은 환경에서의 성능을 향상시키기 위해.
대규모 레이블링된 데이터와 효율적인 다중 GPU 훈련을 활용해 엔드 투 엔드 딥 러닝을 음성 인식 분야에 확장하기 위해.
데이터 기반의 엔드 투 엔드 접근 방식이 복잡한 전통적인 음성 인식 파이프라인을 정확도와 내성 면에서 능가할 수 있음을 입증하기 위해.

제안 방법

시스템은 스펙트로그램 입력을 처리하고 문자 수준의 확률을 예측하기 위해 5층의 피드포워드 신경망과 한 개의 양방향 순환층(RNN)을 사용하며, ReLU 활성화 함수를 적용한다.
네트워크를 비정렬된 음성-텍스트 쌍에 대해 엔드 투 엔드로 훈련하기 위해 커넥티스트 텀포럴 분류(CTC) 손실을 활용한다.
실제 왜곡(예: 배경 노이즈, 반향, Lombard 효과 등)을 현실적으로 재현하는 새로운 데이터 합성 파이프라인을 도입해 내성 면을 향상시킨다.
대규모 RNN의 효율적 확장을 위해 다중 GPU를 사용하는 분산 시스템에서 Nesterov의 가속 경사 하강법을 적용해 모델을 훈련한다.
전사적 언어 모델을 별도로 훈련하기 위해 Common Crawl에서 확보한 2억 2천만 개의 어휘 조합을 활용해 번역 정확도를 향상시킨다.
특히 순환층에서의 GPU 병렬 처리를 향상시키기 위해 모델 분할 전략을 사용한다.

실험 결과

연구 질문

RQ1엔드 투 엔드 딥 러닝 시스템이 정확도와 내성 면에서 기존의 파이프라인 기반 음성 인식 시스템을 능가할 수 있는가?
RQ2데이터 합성 기법이 실제 왜곡(노이즈, 발화자 변동 등)에 대한 모델 일반화 능력을 어느 정도 향상시킬 수 있는가?
RQ3복잡한 아키텍처(예: LSTM)에 의존하지 않고도 다중 GPU 훈련이 대규모 RNN을 음성 인식에 효과적으로 확장하는 데 얼마나 효과적인가?
RQ4대규모이고 다양한 데이터셋에서 훈련된 단순한 RNN에 ReLU 활성화 함수와 CTC 손실을 적용했을 때 최신 기술 수준의 성능을 달성할 수 있는가?

주요 결과

Deep Speech는 발표 당시 기준으로 Switchboard Hub5'00 전체 테스트 세트에서 16.0%의 단어 오류율(WER)을 기록하여 새로운 최고 기록을 수립했다.
자체 제작한 노이즈가 섞인 음성 인식 데이터셋에서 시스템은 19.1%의 WER을 기록했으며, 상용 시스템이 보고한 30.5%의 오류율보다 뚜렷이 뛰어났다.
합성된 노이즈 데이터를 추가함으로써 노이즈가 섞인 발화에서 성능이 6.1%p(28.7%에서 22.6%로) 향상되었으며, 데이터 증강의 효과를 입증했다.
클린 및 노이즈가 섞인 테스트 세트에서 Google Speech, Apple Dictation 등의 상용 API보다 더 낮은 11.85%의 WER을 기록해 노이즈 환경에서 뛰어난 성능을 보였다.
순수하게 원시 데이터만으로 훈련된 모델은 클린 발화에서 9.2%의 WER을 기록했고, 노이즈 증강된 모델는 9.0%의 WER을 기록해 데이터 증강으로 인한 성능 저하가 최소한이었다.
다중 GPU 사용 덕분에 대규모 RNN의 효율적 훈련이 가능해져, 복잡한 순환 단위(LSTM 등)를 사용하지 않더라도 엔드 투 엔드 학습을 확장할 수 있게 되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.