Skip to main content
QUICK REVIEW

[논문 리뷰] Squeezeformer: An Efficient Transformer for Automatic Speech Recognition

Sehoon Kim, Amir Gholami|arXiv (Cornell University)|2022. 06. 02.
Speech Recognition and Synthesis인용 수 75
한 줄 요약

Squeezeformer은 Conformer를 Temporal U-Net 매크로 아키텍처와 간소화된 마이크로 아키텍처로 재설계하여 LibriSpeech test-other에서 외부 LM 없이도 동등한 FLOPs에서 최첨단 WER를 달성한다.

ABSTRACT

The recently proposed Conformer model has become the de facto backbone model for various downstream speech tasks based on its hybrid attention-convolution architecture that captures both local and global features. However, through a series of systematic studies, we find that the Conformer architecture's design choices are not optimal. After re-examining the design choices for both the macro and micro-architecture of Conformer, we propose Squeezeformer which consistently outperforms the state-of-the-art ASR models under the same training schemes. In particular, for the macro-architecture, Squeezeformer incorporates (i) the Temporal U-Net structure which reduces the cost of the multi-head attention modules on long sequences, and (ii) a simpler block structure of multi-head attention or convolution modules followed up by feed-forward module instead of the Macaron structure proposed in Conformer. Furthermore, for the micro-architecture, Squeezeformer (i) simplifies the activations in the convolutional block, (ii) removes redundant Layer Normalization operations, and (iii) incorporates an efficient depthwise down-sampling layer to efficiently sub-sample the input signal. Squeezeformer achieves state-of-the-art results of 7.5%, 6.5%, and 6.0% word-error-rate (WER) on LibriSpeech test-other without external language models, which are 3.1%, 1.4%, and 0.6% better than Conformer-CTC with the same number of FLOPs. Our code is open-sourced and available online.

연구 동기 및 목표

  • Conformer보다 효율성과 정확성을 향상시켜 end-to-end ASR을 촉진한다.
  • Macro- 및 micro-아키텍처 선택을 체계적으로 연구하여 연산을 줄이고 성능을 향상시킨다.
  • ASR을 위한 더 간단하고 효율적인 하이브리드 어텐션-컨볼루션 백본을 제안한다.
  • 외부 언어 모델 없이도 모델 크기 및 FLOPs에 걸쳐 확장 가능한 성능을 입증한다.

제안 방법

  • 인코더 내부에서 표현을 다운샘플링하고 이후 업샘플링하는 Temporal U-Net을 도입한다.
  • Macaron 설계와 백투백 MHA/컨볼루션 순서를 제거하고 Transformer 스타일의 MF/CF 블록 구조를 채택한다.
  • 컨볼루션 모듈의 GLU를 Swish로 교체하여 활성화를 통합한다.
  • 사전-LN을 학습 가능한 스케일링 레이어와 포스트-LN으로 대체하여 추론 시 0-비용 융합이 가능하도록 한다.
  • 초기 서브샘플링 컨볼루션을 깊이별 분리 샘플링 layer로 대체하여 FLOPs를 줄인다.
  • 동일한 학습 설정에서 외부 LM 없이 XS, S, SM, M, ML, L의 다양한 모델 크기를 학습하고 비교한다.

실험 결과

연구 질문

  • RQ1Conformer 스타일의 설계 선택을 정확도를 희생하지 않고 ASR에서 단순화할 수 있는가?
  • RQ2주요 아키텍처 변화(예: 시간 축 다운샘플링)가 주의(attention) 비용을 줄이고 안정성을 향상시키는가?
  • RQ3활성화, 정규화, 서브샘플링 등의 미시적 아키텍처 개선이 WER과 효율성을 더 잘 이끄는가?
  • RQ4Squeezeformer 변형들이 비슷한 FLOPs에서 Cons Conformer 및 기타 베이스라인을 지속적으로 능가하는가?

주요 결과

  • Squeezeformer는 외부 LMs 없이 LibriSpeech test-other에서 WER 7.5%, 6.5%, 6.0%를 달성하며 같은 FLOPs에서 Conformer-CTC보다 1.4–3.1% WER 차이로 우수하다.
  • Temporal U-Net 다운샘플링은 어텐션 비용을 줄이고 안정성을 높여 어텐션에서 최대 2.31–2.53× FLOPs 감소와 더 나은 WER을 달성한다.
  • 통합 Swish 활성화와 스케일된 포스트-LN은 학습 안정성과 WER를 최대 약 0.2–0.7% 정도 향상시킨다(테스트-오더 전반에 걸쳐).
  • 깊이별 분리 샘플링은 FLOPs를 크게 줄이고(서브샘플링에서 약 28%까지) 처리량을 최대 1.34× 향상시키면서 WER 손실 없이 개선한다.
  • Squeezeformer-SM 및 Squeezeformer-M은 비슷한 FLOPs에서 Conformer 베이스라인보다 뛰어나 여러 설정에서 최첨단 결과를 달성한다.
  • 아블레이션 연구는 Temporal U-Net 점프 연결, 학습 가능한 스케일링 레이어 및 Swish 활성화가 최적의 성능에 필요함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.