[논문 리뷰] Zipformer: A faster and better encoder for automatic speech recognition
Zipformer는 U-Net 유사 다운샘플링 구조, BiasNorm, Swoosh 활성화 및 ScaledAdam을 갖춘 더 빠르고 메모리 효율적인 ASR 인코더를 도입하여 LibriSpeech, Aishell-1, WenetSpeech에서 최첨단 결과를 달성합니다.
The Conformer has become the most popular encoder model for automatic speech recognition (ASR). It adds convolution modules to a transformer to learn both local and global dependencies. In this work we describe a faster, more memory-efficient, and better-performing transformer, called Zipformer. Modeling changes include: 1) a U-Net-like encoder structure where middle stacks operate at lower frame rates; 2) reorganized block structure with more modules, within which we re-use attention weights for efficiency; 3) a modified form of LayerNorm called BiasNorm allows us to retain some length information; 4) new activation functions SwooshR and SwooshL work better than Swish. We also propose a new optimizer, called ScaledAdam, which scales the update by each tensor's current scale to keep the relative change about the same, and also explictly learns the parameter scale. It achieves faster convergence and better performance than Adam. Extensive experiments on LibriSpeech, Aishell-1, and WenetSpeech datasets demonstrate the effectiveness of our proposed Zipformer over other state-of-the-art ASR models. Our code is publicly available at https://github.com/k2-fsa/icefall.
연구 동기 및 목표
- 엔드투엔드 ASR 시스템에서 더 빠르고 더 많은 메모리를 효율적으로 사용하는 인코더의 필요성을 제기합니다.
- 효율성을 위한 시간적 다운샘플링 및 주의력 가중치 재사용을 가진 Zipformer 아키텍처를 제안합니다.
- 학습 및 추론을 개선하기 위해 BiasNorm, SwooshR/SwooshL 활성화 및 ScaledAdam 옵티마이저를 도입합니다.
- LibriSpeech, Aishell-1 및 WenetSpeech에서 Zipformer를 평가하고 구성 요소 기여를 이해하기 위한 절삭 연구를 수행합니다.]
- methods
- Propose a U-Net–like encoder with multiple stacks that downsample the input to progressively lower frame rates.
- Adopt a re-designed Zipformer block that reuses attention weights via an expanded module set including Non-Linear Attention (NLA) and ByPass connections.
- Replace LayerNorm with BiasNorm to preserve length information during normalization.
- Introduce two activation functions (SwooshR and SwooshL) tailored for different module needs.
- Develop ScaledAdam, a scale-aware optimizer that learns parameter scales and scales updates by parameter RMS, enabling faster convergence.
- Provide extensive experiments and ablation studies on LibriSpeech, Aishell-1, and WenetSpeech, and compare with state-of-the-art models.
제안 방법
- U-Net 유사 인코더를 제안하되 입력을 점진적으로 더 낮은 프레임 속도로 다운샘플링하는 다중 스택으로 구성합니다.
- 확대된 모듈 세트를 통해 주의력 가중치를 재사용하는 재구성된 Zipformer 블록을 채용하고 Non-Linear Attention (NLA) 및 ByPass 연결을 포함합니다.
- 정규화 동안 길이 정보를 보존하기 위해 LayerNorm을 BiasNorm으로 교체합니다.
- 다른 모듈 요건에 맞춘 두 가지 활성화 함수(SwooshR 및 SwooshL)를 도입합니다.
- 매개변수 스케일을 학습하고 매개변수 RMS에 따라 업데이트를 스케일링하는 스케일 인식 옵티마이저인 ScaledAdam을 개발합니다.
- LibriSpeech, Aishell-1 및 WenetSpeech에서 광범위한 실험과 절삭 연구를 제공하고 최첨단 모델과 비교합니다.

실험 결과
연구 질문
- RQ1엔드투엔드 ASR에서 인코더 아키텍처를 어떻게 더 빠르고 더 많은 메모리를 효율적으로 사용할 수 있도록 만들 수 있을까요?
- RQ2Zipformer 블록의 시간적 다운샘플링 및 주의력 가중치 공유가 효율성과 성능을 향상시키나요?
- RQ3정규화 및 활성화 함수 선택(BiasNorm, SwooshR, SwooshL)이 학습 안정성과 정확도를 개선하나요?
- RQ4스케일 인식 옵티마이저(ScaledAdam)가 Zipformer 모델 학습에서 Adam보다 더 나은가요?
- RQ5LibriSpeech, Aishell-1 및 WenetSpeech에서 Zipformer의 성능은 최첨단 모델과 어떻게 비교되나요?]
주요 결과
- Zipformer-S/M/L은 FLOPs 및 매개변수를 줄이면서 LibriSpeech, Aishell-1 및 WenetSpeech에서 최첨단 성능에 근접한 결과를 달성합니다.
- Zipformer-L 및 Zipformer-L*는 LibriSpeech에서 Conformer-L에 근접한 WER를 달성하면서 FLOPs와 메모리 사용이 대략 절반 수준입니다.
- Zipformer는 학습 및 추론 시 수렴 속도를 빠르게 해주며 GPU에서 메모리 사용 없이 50% 이상 속도 향상을 제공합니다.
- 절삭 연구는 다운샘플링, 공유된 주의력 가중치, BiasNorm, Swoosh 활성화 및 ScaledAdam이 성능과 효율성에 긍정적으로 기여함을 보여줍니다.
- ScaledAdam은 LibriSpeech에서 수렴 및 최종 WER/CER 면에서 Adam보다 우수하며 검증 테스트(test-clean 및 test-other) 지표에서 상당한 이점을 제공합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.