[논문 리뷰] Towards Online End-to-end Transformer Automatic Speech Recognition
이 논문은 기존의 전체 입력이 필요로 하는 자기주의 주의(self-attention)를 요구하는 트랜스포머 아키텍처를 기반으로, 새로운 몰로닉 청크와이즈 어텐션(MoChA)-기반 디코딩 메커니즘을 트랜스포머 디코더에 통합하여 온라인 엔드 투 엔드 트랜스포머 ASR 시스템을 제안한다. 이는 다중 헤드 어텐션과 잔차 연결을 활용하여 실시간 추론을 가능하게 한다. 제안된 방법은 WSJ과 AISHELL-1에서 전통적인 청크와이즈 접근 방식을 능가하며, 전체 컨텍스트를 활용함으로써 각각 6.6% WER와 9.7% CER를 달성한다.
The Transformer self-attention network has recently shown promising performance as an alternative to recurrent neural networks in end-to-end (E2E) automatic speech recognition (ASR) systems. However, Transformer has a drawback in that the entire input sequence is required to compute self-attention. We have proposed a block processing method for the Transformer encoder by introducing a context-aware inheritance mechanism. An additional context embedding vector handed over from the previously processed block helps to encode not only local acoustic information but also global linguistic, channel, and speaker attributes. In this paper, we extend it towards an entire online E2E ASR system by introducing an online decoding process inspired by monotonic chunkwise attention (MoChA) into the Transformer decoder. Our novel MoChA training and inference algorithms exploit the unique properties of Transformer, whose attentions are not always monotonic or peaky, and have multiple heads and residual connections of the decoder layers. Evaluations of the Wall Street Journal (WSJ) and AISHELL-1 show that our proposed online Transformer decoder outperforms conventional chunkwise approaches.
연구 동기 및 목표
- 기존에 전체 입력이 필요로 하는 자기주의 주의를 요구하는 트랜스포머 아키텍처를 사용하여 엔드 투 엔드 온라인 음성 인식을 가능하게 하기.
- 디코더에서 표준 블록 처리 방식의 한계를 극복하기 위해 학습 가능한 컨텍스트 인식 청크 이동 메커니즘을 도입하기.
- 비단조화적 어텐션 패턴과 다중 잔차 연결을 가진 트랜스포머 디코더에 몰로닉 청크와이즈 어텐션(MoChA)을 적응시키기.
- 과거에 인코딩된 특징을 청크 간에 유지하면서도 실시간 추론을 보장하면서도 높은 ASR 정확도를 유지하기.
- 디코더 레이어에서 다중 어텐션 헤드와 잔차 연결을 처리할 수 있는 새로운 MoChA 학습 알고리즘 개발하기.
제안 방법
- 소스-타겟 어텐션( STA)을 사용하여 최적의 청크 경계를 결정하는 트리거 기반 청크 이동 메커니즘을 트랜스포머 디코더에 도입한다.
- 이전 블록의 컨텍스트 임베딩 벡터를 활용하여 인코더에서 컨텍스트 인식 유산 메커니즘을 구현하며, 이는 전반적인 언어적, 채널, 화자 특성을 유지한다.
- 다중 어텐션 헤드와 잔차 연결을 모두 고려한 학습 가능한 단조성 에너지 함수를 정의하여 MoChA를 트랜스포머 디코더에 적응시킨다.
- 각 청크 내부에서 또는 이전에 인코딩된 모든 프레임을 사용하여 소스-타겟 어텐션( STA)을 계산하여 어텐션 지도를 향상시키고 정렬을 개선한다.
- 표준 크로스 엔트로피 손실과 MoChA 청크 분할 과정의 미분 가능한 근사치를 조합한 하이브리드 학습 목표를 적용하여 학습을 안정화시킨다.
- 외부 언어 모델을 사용한 얕은 융합과 함께 빔 서치 디코딩을 수행하며, CTC와 트랜스포머 출력을 학습 가능한 가중치로 융합하여 재평가한다.
실험 결과
연구 질문
- RQ1비단조화적 어텐션 패턴을 가진 트랜스포머 디코더에 몰로닉 청크와이즈 어텐션 메커니즘이 효과적으로 적용될 수 있는가?
- RQ2트랜스포머 디코더의 다중 헤드 어텐션과 잔차 연결이라는 고유한 특성을 활용하여 온라인 ASR 성능을 향상시킬 수 있는가?
- RQ3인코더에서의 컨텍스트 인식 블록 처리 방식과 온라인 디코딩 전략을 융합하여 정확도 저하를 최소화하면서 완전한 온라인 엔드 투 엔드 ASR를 달성할 수 있는가?
- RQ4특히 중국어와 같이 자원이 적거나 형태학적으로 복잡한 언어에서, 어텐션 메커니즘에 이전에 인코딩된 모든 특징을 사용할 경우 성능 향상이 이루어지는가?
- RQ5제안된 MoChA 학습 알고리즘이 비단조화적 어텐션 특성을 유지하면서도 다중 어텐션 헤드와 잔차 연결이 존재하는 상황에서 학습 안정성을 확보할 수 있는가?
주요 결과
- 제안된 온라인 트랜스포머 디코더는 WSJ 테스트 세트에서 6.6% WER를 달성하여 배치 디코딩 기반 베이스라인 모델(6.0%)과 모든 다른 온라인 방법을 능가했다.
- AISHELL-1 중국어 데이터셋에서 제안된 방법은 9.7% CER를 기록했으며, 이는 다음으로 우수한 온라인 방법(18.7% CER)을 크게 능가했고, 오프라인 모델의 성능에 가까워졌다.
- 모든 이전에 인코딩된 특징을 어텐션 계산에 활용한 결과, WSJ에서 15.3% 상대적 WER 감소와 AISHELL-1에서 49.2% 상대적 CER 감소가 이루어졌으며, 중앙값 기반 청크 분할 기반 베이스라인 대비 유의미한 향상이 있었다.
- 전체 컨텍스트를 활용한 모델는 모든 온라인 방법 중에서 가장 높은 정확도를 기록했으며, 이는 제안된 MoChA 메커니즘이 장거리 의존성을 효과적으로 포착했음을 보여준다.
- 새로운 MoChA 학습 알고리즘이 다중 어텐션 헤드와 잔차 연결이 존재하는 환경에서도 학습을 안정화시키며, 신뢰할 수 있는 온라인 추론을 가능하게 했다.
- 최적의 융합 가중치(WSJ: 0.3, AISHELL-1: 0.7)를 사용하여 CTC와 트랜스포머 출력을 융합함으로써 인식 정확도가 추가로 향상되었으며, 하이브리드 디코딩의 효과성을 확인했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.