Skip to main content
QUICK REVIEW

[논문 리뷰] TG-ASR: Translation-Guided Learning with Parallel Gated Cross Attention for Low-Resource Automatic Speech Recognition

Cheng-Yeh Yang, Chien-Chun Wang|arXiv (Cornell University)|2026. 02. 25.
Speech Recognition and Synthesis인용 수 0
한 줄 요약

TG-ASR은 저자원 환경에서 대만 화힌 어 ASR을 개선하기 위해 번역 가이드 학습과 병렬 게이트된 교차 주의(PGCA)를 도입하고 YT-THDC 30시간 코퍼스를 공개하여 상대 CER 감소율 14.77%를 달성했다.

ABSTRACT

Low-resource automatic speech recognition (ASR) continues to pose significant challenges, primarily due to the limited availability of transcribed data for numerous languages. While a wealth of spoken content is accessible in television dramas and online videos, Taiwanese Hokkien exemplifies this issue, with transcriptions often being scarce and the majority of available subtitles provided only in Mandarin. To address this deficiency, we introduce TG-ASR for Taiwanese Hokkien drama speech recognition, a translation-guided ASR framework that utilizes multilingual translation embeddings to enhance recognition performance in low-resource environments. The framework is centered around the parallel gated cross-attention (PGCA) mechanism, which adaptively integrates embeddings from various auxiliary languages into the ASR decoder. This mechanism facilitates robust cross-linguistic semantic guidance while ensuring stable optimization and minimizing interference between languages. To support ongoing research initiatives, we present YT-THDC, a 30-hour corpus of Taiwanese Hokkien drama speech with aligned Mandarin subtitles and manually verified Taiwanese Hokkien transcriptions. Comprehensive experiments and analyses identify the auxiliary languages that most effectively enhance ASR performance, achieving a 14.77% relative reduction in character error rate and demonstrating the efficacy of translation-guided learning for underrepresented languages in practical applications.

연구 동기 및 목표

  • ASR에서 저자원 언어(대만 화힌 어)에 대한 전사 데이터의 부족 문제를 해결하는 것.
  • PGCA를 통해 다국어 번역 임베딩이 통합된 번역 가이드 학습을 제안한다.
  • 보조 언어를 평가하고 ASR 성능에 미치는 영향을 정량화한다.
  • 벤치마킹용으로 만다린 자막에 정렬된 새로운 30시간 규모의 대만 화힌 어 드라마 코퍼스를 공개한다.

제안 방법

  • Whisper Small에서의 2단계 훈련; 1단계에서 인코더와 디코더를 미세조정하고, 2단계에서 인코더를 고정한 채 PGCA 레이어를 미세조정한다.
  • 동결된 mBERT를 사용하여 번역된 보조 전사본(SeamlessM4T 번역)으로 다국어 번역 임베딩을 추출하고 이를 PGCA를 통해 Whisper 디코더에 통합한다.
  • PGCA 메커니즘은 Y' = Y + sum_l tanh(alpha_attn^(l)) * attn(Y, E_l, E_l); Z = Y' + tanh(alpha_FNN) * FNN(Y'); 여기서 alpha 매개변수들은 학습 가능하며 0으로 초기화된다.
  • 디코딩 초기 단계에서 다국어 맥락을 조기에 주입하기 위해 각 Whisper 디코더 블록의 시작 지점에 PGCA 모듈을 배치한다.
  • L개의 보조 언어에 대해 병렬 교차 주의 모듈을 사용하여 각 언어에 대해 독립적인 주의 분기와 게이팅을 가능하게 한다.
  • 교사 강제 디코딩에서 문자 오류율(CER)을 사용해 평가하고 PGCA 구성요소를 분석하기 위한 제거 실험(제약)을 수행한다.
Figure 1 : Illustration of the Taiwanese Hokkien drama subtitles. (a) A scene with spoken Taiwanese Hokkien and existing Mandarin subtitles enclosed in a blue box 2 2 2 The meaning of the subtitle is “How could he possibly get involved in such a thing?” in English. Images were adapted from publicly
Figure 1 : Illustration of the Taiwanese Hokkien drama subtitles. (a) A scene with spoken Taiwanese Hokkien and existing Mandarin subtitles enclosed in a blue box 2 2 2 The meaning of the subtitle is “How could he possibly get involved in such a thing?” in English. Images were adapted from publicly

실험 결과

연구 질문

  • RQ1보조 다국어 번역이 이용 가능할 때 PGCA를 활용한 번역 가이드 학습이 저자원 언어(대만 화힌 어)의 ASR 성능을 향상시키는가?
  • RQ2어떤 보조 언어들(또는 조합)이 대만 화힌 어 ASR를 가장 효과적으로 향상시키는가?
  • RQ3다국어 임베딩에 대한 다른 융합 전략(덧셈, 연결, 순차/공유 주의)과 비교하여 PGCA의 성능은 어떠한가?
  • RQ4보조 언어의 수가 ASR 성능에 어떤 영향을 주며 최적의 하위 집합이 있는가?
  • RQ5번역 모델의 품질(SeamlessM4T 대 NLLB)이 ASR 향상에 영향을 미치는가?

주요 결과

보조 언어CER %Rel. %
-13.40-
Mandarin (GT)11.8711.42
Hindi13.171.72
English13.102.24
French12.983.13
Spanish12.844.18
Mandarin (GT) + Spanish11.4214.77
  • 다섯 개의 보조 언어를 사용하는 전체 PGCA는 YT-THDC에서 CER 11.42%를 달성하여 베이스라인 대비 상대 14.77% 감소를 달성했다.
  • 단일 언어 신호 중 Mandarin GT가 CER 11.87%를 산출하며 가장 강력한 단일 언어 감독이다.
  • 번역된 언어들(Hindi, English, French, Spanish)을 사용하는 것이 베이스라인보다 개선되며, 번역된 언어 중 Spanish가 최고 성능(CER 12.84%)을 보인다.
  • 최강의 두 언어 조합(Mandarin + Spanish)이 가장 큰 CER 감소를 낳으며, 더 많은 언어를 추가하면 수익이 감소하지만 단일 언어 감독보다 여전히 우수하다.
  • 추출실험은 tanh 게이팅, 병렬 다지Attention, 독립적인 언어별 주의가 유익하다는 것을 보이며, 단순 덧셈이나 연결은 성능을 저하시키는 것으로 나타났다.
  • SeamlessM4T 유래 보조 번역이 CER(11.42% with A6)로 NLLB 유래보다 더 나은 성능을 보여 주며, 번역 품질이 가이드에 영향을 준다.
  • 교차-언어 주의 시각화는 Mandarin과 Taiwanese Hokkien 간의 토큰 수준 정렬을 보여 주며, 효과적인 번역 가이드 감독을 뒷받침한다.
Figure 2 : The architecture of the proposed TG-ASR, which leverages our novel parallel gated cross-attention (PGCA) mechanism to integrate multilingual translated transcription inputs for improved knowledge transfer in ASR.
Figure 2 : The architecture of the proposed TG-ASR, which leverages our novel parallel gated cross-attention (PGCA) mechanism to integrate multilingual translated transcription inputs for improved knowledge transfer in ASR.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.