QUICK REVIEW

[논문 리뷰] Self-supervised Learning with Random-projection Quantizer for Speech Recognition

Chung‐Cheng Chiu, James Qin|arXiv (Cornell University)|2022. 02. 03.

Speech Recognition and Synthesis인용 수 29

한 줄 요약

BEST-RQ는 고정된 임의-프로젝션 양자화기를 사용하여 마스크된 음성 모델링에 대한 이산 타깃을 생성하는 간단한 자기지도 사전 학습을 도입하여 LibriSpeech에서 경쟁력 있는 WER를 달성하고 양자화기를 학습하지 않으면서 스트리밍 지연시간과 다국어 결과를 개선한다.

ABSTRACT

We present a simple and effective self-supervised learning approach for speech recognition. The approach learns a model to predict the masked speech signals, in the form of discrete labels generated with a random-projection quantizer. In particular the quantizer projects speech inputs with a randomly initialized matrix, and does a nearest-neighbor lookup in a randomly-initialized codebook. Neither the matrix nor the codebook is updated during self-supervised learning. Since the random-projection quantizer is not trained and is separated from the speech recognition model, the design makes the approach flexible and is compatible with universal speech recognition architecture. On LibriSpeech our approach achieves similar word-error-rates as previous work using self-supervised learning with non-streaming models, and provides lower word-error-rates and latency than wav2vec 2.0 and w2v-BERT with streaming models. On multilingual tasks the approach also provides significant improvement over wav2vec 2.0 and w2v-BERT.

연구 동기 및 목표

양자화를 ASR 모델과 분리하여 자기지도 음성 학습의 복잡성을 줄이려는 동기를 제시한다.
마스킹된 음성 예측을 위한 이산 라벨을 생성하기 위해 임의 투사 양자화를 제안한다.
스트리밍 및 비스트리밍 ASR 아키텍처 모두와의 호환성을 보여준다.
효과적인 자기지도 ASR을 위해 표현 학습이 필수적이지 않음을 보여준다.

제안 방법

음성 특징을 고정되었고 무작위로 초기화된 코드북으로 투사하기 위해 임의 투사를 적용한다.
입력의 일부를 마스킹하고 ASR 인코더가 마스킹된 영역의 이산 라벨을 예측하도록 학습한다( BERT-스타일 사전 학습).
사전 학습 동안 투사 행렬과 코드북을 고정된 상태로 유지한다(표현 학습 없음).
사전 학습 중에 ASR 인코더에 소프트맥스 헤드를 사용한다; 미세 조정은 이 헤드를 제외한다.
비스트리밍 및 스트리밍 Conformer 기반 ASR 모델과 다국어 설정에 대해 평가한다.
코드북 붕괴를 방지하기 위해 입력을 평균 0, 분산 1로 정규화한다.

실험 결과

연구 질문

RQ1고정되고 무작위로 초기화된 양자화기가 자기지도 ASR 사전 학습에 효과적인 타깃을 제공할 수 있는가?
RQ2BEST-RQ가 스트리밍 대 비스트리밍 아키텍처에서 어떻게 성능을 보이는가?
RQ3양자화기의 품질이 ASR의 자기지도 학습 성능에 미치는 영향은 무엇인가?
RQ4임의 투사 양자화가 표현 학습 접근법에 비해 다국어 개선을 제공하는가?

주요 결과

BEST-RQ는 비스트리밍 모델과 함께 이전의 자기지도 방법과 비교할 만한 LibriSpeech 성능을 달성한다.
BEST-RQ는 LibriSpeech에서 스트리밍 모델에 대해 wav2vec 2.0 및 w2v-BERT보다 더 낮은 지연 시간을 제공한다.
다국어 작업에서 BEST-RQ는 wav2vec 2.0 및 w2v-BERT에 비해 상당한 개선을 보인다.
양자화기의 품질은 자기지도 학습의 효과를 엄격하게 예측하지 못하며, 특히 충분한 사전 학습 데이터가 있을 때 그렇다.
양자화기를 ASR 모델과 분리하고 표현 학습을 피하는 것은 아키텍처 설계와 학습을 단순화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.