QUICK REVIEW

[논문 리뷰] Textually Pretrained Speech Language Models

Michael Hassid, Tal Remez|arXiv (Cornell University)|2023. 05. 22.

Topic Modeling인용 수 7

한 줄 요약

TWIST는 사전 학습된 텍스트 LMs에서 SpeechLM을 초기화하고 자동 평가와 인간 평가 전반에 걸쳐 일관되게 성능을 향상시키며, 지금까지 가장 큰 SpeechLM으로 확장합니다.

ABSTRACT

Speech language models (SpeechLMs) process and generate acoustic data only, without textual supervision. In this work, we propose TWIST, a method for training SpeechLMs using a warm-start from a pretrained textual language models. We show using both automatic and human evaluations that TWIST outperforms a cold-start SpeechLM across the board. We empirically analyze the effect of different model design choices such as the speech tokenizer, the pretrained textual model, and the dataset size. We find that model and dataset scale both play an important role in constructing better-performing SpeechLMs. Based on our observations, we present the largest (to the best of our knowledge) SpeechLM both in terms of number of parameters and training data. We additionally introduce two spoken versions of the StoryCloze textual benchmark to further improve model evaluation and advance future research in the field. We make speech samples, code and models publicly available: https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .

연구 동기 및 목표

전통적인 차가운 시작 방식 외에 텍스트 사전학습이 SpeechLM을 어떻게 개선할 수 있는지 동기를 부여하고 탐구한다.
음성 토크나이저, 사전학습된 텍스트 모델, 학습 데이터 규모와 같은 설계 선택을 체계적으로 분석한다.
SpeechLM 성능에 대한 스케일링의 영향을 입증하고 보고된 가장 큰 SpeechLM을 소개한다.
구어에서 맥락성과 응집성 측면을 평가하기 위한 새로운 구어 벤치마크(Spoken StoryCloze)를 제공한다.

제안 방법

텍스트 어휘를 음성 토큰 어휘로 대체하고 사전 학습된 텍스트 LM으로부터 SpeechLM을 초기화하는 방법인 TWIST를 도입한다.
SpeechLM용 이산 음성 토큰을 생성하기 위해 HuBERT 기반의 음성 토크나이저와 k-means 양자화를 사용한다.
토큰에서 음성으로 재합성하는 보코더(HiFi-GAN)를 학습시켜 토큰으로부터 음성을 재합성하고 SpeechLM의 엔드-투-엔드 평가를 가능하게 한다.
sWUGGY와 sBLIMP를 사용한 제로샷 어휘/구문 모델링을 평가하고 MMOS를 통해 인간 판단을 평가한다.
모델 규모(1.3B, 7B, 13B) 및 데이터 규모(1%, 10%, 100%)에 걸쳐 TWIST와 Cold-Init를 비교한다.
구어 콘텐츠의 미세한 응집성과 거친 응집성을 평가하기 위해 Spoken StoryCloze 벤치마크(sStoryCloze와 tStoryCloze)를 도입한다.

Figure 1 : Generative Spoken Language Modeling: the pipeline is composed of three main components (i) Speech tokenizer; (ii) SpeechLM; and (iii) Token-to-speech. This paper introduces TWIST ,which initializes the weights of the SpeechLM from a pretrained text LM.

실험 결과

연구 질문

RQ1TWIST를 통해 텍스트 언어 모델이 SpeechLM에 유익한 초기화를 제공할 수 있는가?
RQ2음성 토크나이저 선택, 텍스트 LM 선택, 학습 데이터 규모가 SpeechLM 성능에 어떤 영향을 미치는가?
RQ3SpeechLM을 7B/13B 매개변수로 확장하는 것이 자동, 인간, 구어 벤치마크 평가에 미치는 영향은 무엇인가?
RQ4sStoryCloze와 tStoryCloze 같은 구어 벤치마크가 텍스트 기반 벤치마크와 비교하여 SpeechLM의 강점과 격차를 드러내는가?

주요 결과

TWIST는 PPL, sWUGGY, sBLIMP 지표에서 Cold-Init보다 일관되게 개선된다.
더 큰 다운샘플링(예: 25Hz에서 500 토큰 사용)이 sWUGGY 및 sBLIMP 결과를 개선한다.
모델 크기와 데이터를 확장하면 성능이 향상되며; TWIST로 10% 데이터는 Cold-Init의 100% 데이터와 맞추거나 이를 초과할 수 있다.
TWIST는 더 빨리 수렴하여 약 업데이트의 4분의 1 정도의 업데이트로 목표 perplexity에 도달한다.
TWIST-7B/13B 모델은 TWIST-1.3B보다 추가 이득을 보이며, TWIST-13B는 sWUGGY(전체 및 어휘 내)와 sBLIMP에서 이전 방법들을 능가한다.
Spoken StoryCloze 결과는 연속성 일관성에서 미세한 시간적 상식보다 더 나은 성능을 보여주며, tStoryCloze에서 인간 성능 대비 약 15% 포인트의 차이가 있고 sStoryCloze에서는 더 크게 벌어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.