QUICK REVIEW

[논문 리뷰] Fully Quantizing a Simplified Transformer for End-to-end Speech Recognition

Alex Bie, Bharat Venkitesh|arXiv (Cornell University)|2019. 11. 09.

Speech Recognition and Synthesis참고 문헌 13인용 수 6

한 줄 요약

이 논문은 엔드투엔드 음성 인식을 위한 간소화되고 완전히 양자화된 트랜스포머를 제안하여 모델 크기를 줄이고 엣지 디바이스에의 배포를 가능하게 한다. 비필수 모듈을 제거하고 8비트 고정점 양자화를 적용함으로써 저자들은 전체 정밀도 성능을 유지하면서도 4배의 모델 압축을 달성한다.

ABSTRACT

While significant improvements have been made in recent years in terms of end-to-end automatic speech recognition (ASR) performance, such improvements were obtained through the use of very large neural networks, unfit for embedded use on edge devices. That being said, in this paper, we work on simplifying and compressing Transformer-based encoder-decoder architectures for the end-to-end ASR task. We empirically introduce a more compact Speech-Transformer by investigating the impact of discarding particular modules on the performance of the model. Moreover, we evaluate reducing the numerical precision of our network's weights and activations while maintaining the performance of the full-precision model. Our experiments show that we can reduce the number of parameters of the full-precision model and then further compress the model 4x by fully quantizing to 8-bit fixed point precision.

연구 동기 및 목표

엔드투엔드 음성 인식에 적합한 소형이고 효율적인 트랜스포머 아키텍처를 개발하기 위해.
트랜스포머 인코더-디코더 아키텍처에서 특정 모듈을 제거할 경우 ASR 성능에 미치는 영향을 조사하기 위해.
모델 정확도에 영향을 주지 않도록 전체 8비트 고정점 양자화를 통해 수치 정밀도를 얼마나 낮출 수 있는지 평가하기 위해.
인식 성능을 훼손하지 않고도 상당한 모델 압축을 달성하기 위해.

제안 방법

저자들은 파라미터 수를 줄이기 위해 주어진 어텐션 메커니즘 또는 피드포워드 레이어와 같은 비필수 구성 요소를 제거하여 트랜스포머를 간소화한다.
학습 후 양자화를 적용하여 전체 정밀도 가중치와 활성화를 8비트 고정점 표현으로 변환한다.
기본 손실 함수를 사용하여 간소화된 모델을 음성 인식 데이터에서 엔드투엔드로 훈련한다.
계속적인 모듈 제거와 함께 전체 정밀도를 8비트 정밀도로 양자화하여 모델 압축을 달성한다.
기준 데이터셋에서 표준 ASR 메트릭(예: 단어 오류율(WER))을 사용하여 성능을 평가한다.
상당한 압축에도 불구하고 전체 정밀도 성능 수준을 유지한다.

실험 결과

연구 질문

RQ1트랜스포머에서 특정 모듈을 제거하면 엔드투엔드 ASR 성능에 어떤 영향을 미치는가?
RQ2정확도가 저하되지 않도록 양자화를 통해 수치 정밀도를 얼마나 낮출 수 있는가?
RQ3파rameter 수가 감소한 간소화된 트랜스포머가 성능을 유지하면서도 8비트 고정점 정밀도로 효과적으로 양자화될 수 있는가?
RQ4모듈 단순화와 전체 양자화를 통해 달성할 수 있는 최대 압축 비율은 얼마인가?

주요 결과

간소화된 트랜스포머 모델은 전체 8비트 양자화 후 모델 크기가 4배로 감소한다.
양자화된 모델은 전체 정밀도 기준선과 동일한 단어 오류율(WER)을 유지한다.
비필수 모듈의 제거로 파라미터 수가 감소했지만 성능 저하가 크지 않다.
전체 8비트 양자화가 모델 정확도를 유지하여 자원 제약이 있는 엣지 디바이스에의 배포를 가능하게 한다.
아키텍처 단순화와 양자화의 조합은 자원 제약이 있는 하드웨어에서 효율적이고 저지연 인퍼런스를 가능하게 한다.
이 방법은 모델 압축을 통해 엣지 디바이스에서 고정확도 엔드투엔드 ASR가 가능하다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.