[논문 리뷰] Improving Generalization of Transformer for Speech Recognition with Parallel Schedule Sampling and Relative Positional Embedding
이 논문은 음성 인식에서 Transformer의 일반화 성능을 향상시키기 위해 병렬 스케줄드 샘플링(PSS)과 상대적 위치 임베딩(RPE)을 제안한다. PSS는 노출 편향을 줄이기 위해 훈련 중에 효율적이고 병렬적인 스케줄드 샘플링을 가능하게 하며, RPE는 장거리 시퀀스에서의 주의 confusion을 완화하기 위해 국소적이고 상대적인 시퀀스 위치를 모델링함으로써 성능을 향상시킨다. 10,000시간 분량의 중국어 음성 인식 작업에서 이 조합은 짧은 발화에서는 7% 상대적 CER 감소, 긴 발화에서는 70% 상대적 향상을 달성한다.
Transformer has shown promising results in many sequence to sequence transformation tasks recently. It utilizes a number of feed-forward self-attention layers to replace the recurrent neural networks (RNN) in attention-based encoder decoder (AED) architecture. Self-attention layer learns temporal dependence by incorporating sinusoidal positional embedding of tokens in a sequence for parallel computing. Quicker iteration speed in training than sequential operation of RNN can be obtained. Deeper layers of the transformer also make it perform better than RNN-based AED. However, this parallelization ability is lost when applying scheduled sampling training. Self-attention with sinusoidal positional embedding may cause performance degradations for longer sequences that have similar acoustic or semantic information at different positions as well. To address these problems, we propose to use parallel scheduled sampling (PSS) and relative positional embedding (RPE) to help the transformer generalize to unseen data. Our proposed methods achieve a 7% relative improvement for short utterances and a 70% relative gain for long utterances on a 10,000-hour Mandarin ASR task.
연구 동기 및 목표
- 긴 및 미사용 길이의 발화에 대해 특히 적용되는, 기반 기반 Transformer의 일반화 갭을 해결하기 위해.
- 비자기적, 병렬 디코딩 기반 Transformer에서 스케줄드 샘플링의 비효율성을 극복하기 위해.
- 긴 시퀀스에서 유사한 음성 또는 의미적 내용으로 인해 발생하는 주의 confusion 및 삭제 오류(꼬리 삭제 및 내부 삭제)를 줄이기 위해.
- 훈련 시퀀스 길이를 초월한 일반화를 향상시키기 위해 국소적이고 상대적인 위치 관계를 모델링함으로써.
- PSS와 RPE를 결합하여 짧고 긴 테스트 세트 양측에서 강건성과 정확도 향상에 기여하는 시너지 효과를 도출하기 위해.
제안 방법
- 훈련 중에 실제 디코딩 동작을 시뮬레이션하기 위해 추론 시와 유사한 비율로 참조 레이블과 모델이 생성한 출력을 혼합하는 병렬 스케줄드 샘플링(PSS)을 제안한다.
- 디코더 입력 주입 중에 참조 레이블과 혼합하기 위한 후보 출력을 생성하기 위해 하이브리드 모델(Kaldi 기반) 또는 Transformer 자체를 사용한다.
- 절대적 위치 임베딩을 대체하거나 보완하기 위해 상대적 위치 임베딩(RPE)을 도입하여, 모델이 국소적 맥락 창안 내에서 상대적 위치 관계를 학습할 수 있도록 한다.
- RPE를 인코더 및 디코더의 다중 헤드 어텐션 레이어에 적용하며, 고정된 상대 범위(k=10 등) 내에서 주의를 제한함으로써 국소화 성능 향상과 혼동 감소를 도모한다.
- 사전 학습된 토큰 ID 기반 위치 임베딩을 시그모이드 APE와의 기준 비교로 사용하여, 훈련된 위치 외의 위치에 일반화하는 데 한계가 있음을 보여준다.
- PSS와 RPE를 공동 훈련 설정에서 결합하며, 추론 행동과 더 잘 일치시키기 위해 훈련 중에 반복적 디코딩을 수행한다.
실험 결과
연구 질문
- RQ1자기적, 병렬 디코딩 기반 Transformer에 대해 훈련 속도를 저하시키거나 순차적 병목 현상이 발생하지 않도록 스케줄드 샘플링을 효율적으로 적용할 수 있는가?
- RQ2상대적 위치 임베딩이 음성 인식에서 긴, 미사용 길이의 발화에 대해 Transformer의 일반화 성능을 향상시키는가?
- RQ3PSS와 RPE는 긴 형태의 음성 인식에서 꼬리 삭제 및 내부 삭제를 어느 정도 줄이는가?
- RQ4유사한 음성 또는 의미적 세그먼트를 포함한 장거리 시퀀스에서 RPE는 절대적 위치 임베딩보다 어떻게 다루는가?
- RQ5PSS와 RPE의 조합 효과는 짧고 긴 발화 분포 전반에서 모델의 일반화에 어떤 영향을 미치는가?
주요 결과
- 제안된 PSS 방법은 티처 포싱 훈련 대비 짧은 발화에서 7.2% 상대적 CER 감소(8.88%에서 8.24%로)를 달성한다.
- PSS와 RPE의 조합은 긴 발화의 CER을 42.41%에서 12.73%로 낮혀 70% 상대적 향상률을 기록한다.
- RPE만으로도 인코더에서 k=10을 사용할 경우 기준값인 42.41%에서 29.87%로 CER가 감소하고, 인코더와 디코더 양쪽에 RPE를 적용하면 12.73%로 추가로 감소한다.
- 오류 분석 및 예시 디코딩 비교를 통해 RPE가 꼬리 삭제 및 내부 삭제를 크게 줄임을 확인할 수 있다.
- qualitative 예시에서 관찰된 바와 같이, RPE는 주의 디코딩에서의 자기 루프 문제를 완화한다. 잘못된 반복이 수정되는 것을 확인할 수 있다.
- 최고 성능을 보인 모델(E8+E3)은 짧은 발화에서 CER 8.9%, 긴 발화에서 CER 12.89%를 기록하여 시퀀스 길이 전반에 걸친 강력한 일반화 성능을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.