[논문 리뷰] Iterative Pseudo-Labeling for Speech Recognition
이 논문은 사전 훈련된 음성 인식 모델을 미세조정하여 비라벨 데이터에 대해 반복적으로 가짜 레이블을 생성하고 개선하는 반복적 가짜 레이블링(IPL)이라는 준지도 학습 음성 인식 방법을 제안한다. 이는 성능을 크게 향상시키며, LibriSpeech에서 상태의 기준(WER)을 달성한다. 960시간의 라벨 데이터로 테스트-오더에서 WER를 1.85%로 줄이고, 라벨 데이터를 100시간으로 줄였을 때도 3.19%로 유지하며, 모델 미세조정과 데이터 샘플링을 통해 계산 효율성을 확보한다.
Pseudo-labeling has recently shown promise in end-to-end automatic speech recognition (ASR). We study Iterative Pseudo-Labeling (IPL), a semi-supervised algorithm which efficiently performs multiple iterations of pseudo-labeling on unlabeled data as the acoustic model evolves. In particular, IPL fine-tunes an existing model at each iteration using both labeled data and a subset of unlabeled data. We study the main components of IPL: decoding with a language model and data augmentation. We then demonstrate the effectiveness of IPL by achieving state-of-the-art word-error rate on the Librispeech test sets in both standard and low-resource setting. We also study the effect of language models trained on different corpora to show IPL can effectively utilize additional text. Finally, we release a new large in-domain text corpus which does not overlap with the Librispeech training transcriptions to foster research in low-resource, semi-supervised ASR
연구 동기 및 목표
- 대규모 비라벨 오디오 데이터를 활용하여 저자원 음성 인식(ASR)의 성능 격차를 해소한다.
- 각 가짜 레이블링 반복 과정에서 다시 훈련하는 데서 비롯하는 계산 비효율성을 해결한다.
- 언어 모델을 통한 다양한 텍스트 코퍼스에서의 지식 전이를 효과적으로 통해 모델 일반화 능력을 향상시킨다.
- 반복적인 가짜 레이블 개선이 단일 패assing 가짜 레이블링보다 일관된 성능 향상을 이끌어내는지 확인한다.
- LibriLight와 같은 대규모 데이터셋에 적합한 확장성 있고 효율적인 준지도 학습 틀을 제공한다.
제안 방법
- 빔 서치 디코딩 중 현재 음성 모델과 언어 모델을 사용하여 비라벨 데이터의 하향 샘플링된 부분집합에 대해 반복적으로 가짜 레이블을 생성한다.
- 새로 생성된 가짜 레이블 데이터와 라벨 데이터를 모두 사용하여 기존 음성 모델을 미세조정함으로써 다시 훈련하지 않도록 한다.
- 각 미세조정 단계에서 데이터 증강을 적용하여 강건성과 일반화 능력을 향상시킨다.
- 성능 유지와 함께 계산 비용과 추론 시간을 줄이기 위해 비라벨 데이터셋을 샘플링한다.
- 디코딩 중 안정적인 가짜 레이블 생성을 위해 연결주의 시간 분류(CTC) 손실을 사용한다.
- 모델을 먼저 라벨 데이터로 사전 훈련한 후, 반복적으로 가짜 레이블 데이터를 사용하여 개선하는 다단계 훈련 프로토콜을 적용한다.

실험 결과
연구 질문
- RQ1미세조정을 통한 반복적 가짜 레이블 개선이 단일 패assing 가짜 레이블링을 초월해 ASR 성능을 향상시킬 수 있는가?
- RQ2특히 도메인 내 및 도메인 외 텍스트를 사용할 때 언어 모델의 선택이 가짜 레이블 품질과 최종 모델 성능에 어떤 영향을 미치는가?
- RQ3데이터 샘플링과 미세조정이 훈련 시간을 얼마나 줄이며, 정확도를 유지하거나 향상시키는가?
- RQ4빔 서치 디코딩 중 언어 모델을 사용할 경우 반복 설정에서 그레디 디코딩보다 더 나은 가짜 레이블 품질을 얻을 수 있는가?
- RQ5IPL이 저자원 ASR 환경에서 큰 비일치 텍스트 코퍼스를 효과적으로 활용하여 성능을 향상시킬 수 있는가?
주요 결과
- IPL은 960시간의 라벨 데이터로 LibriSpeech 테스트-오더에서 최고 성능(WER)을 기록하며, WER 1.85%를 달성한다.
- 라벨 데이터를 100시간으로 줄였을 때도 IPL은 테스트-오더에서 WER를 3.19%로 줄여 저자원 환경에서의 뛰어난 효과를 입증한다.
- 4-그램 언어 모델과 트랜스포머 언어 모델을 사용한 리스크로링을 통해, 960시간의 라벨 데이터와 54K개의 도메인 내 텍스트로 테스트-오더에서 WER 3.26%를 달성한다.
- IPL은 다시 훈련하는 것에 비해 훈련 시간을 최대 80%까지 줄였다: 완전 재훈련이 17일이 소요되는 데 비해, IPL은 8일 만에 WER 4.12%를 달성한다.
- 비라벨 데이터의 20% 하향 샘플링 비율은 가짜 레이블링 속도를 5배로 높이며 성능 저하가 최소한이다.
- 낮은 퍼플렉서티 언어 모델을 사용하더라도, 도메인 내 텍스트(LV-54K)를 활용할 경우 더 낮은 WER를 기록함으로써, 잠재적 레이블 유출에도 불구하고 효과적인 지식 전이가 이루어짐을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.