[논문 리뷰] Spirit LM: Interleaved Spoken and Written Language Model
SPIRIT LM는 텍스트와 음성 토큰을 번갈아가며 학습하는 7B 파라미터 기초 모델로, 음성과 텍스트 모두의 교차 모odal 생성을 가능하게 한다. LLaMA 2를 텍스트(BPE)와 음성(HuBERT, 주파수, 스타일 유닛)의 혼합 스트림에서 연속적인 미세조정을 통해 확장함으로써, ASR, TTS, 음성 분류 분야에서 소수의 예시 학습에서도 뛰어난 성능을 발휘하며, 모달 간 감정을 유지한다—이는 음성과 텍스트 생성에서 교차 모달 감정 유지가 가능하다는 점에서 처음으로 입증된 모델이다.
We introduce Spirit LM, a foundation multimodal language model that freely mixes text and speech. Our model is based on a 7B pretrained text language model that we extend to the speech modality by continuously training it on text and speech units. Speech and text sequences are concatenated as a single stream of tokens, and trained with a word-level interleaving method using a small automatically-curated speech-text parallel corpus. Spirit LM comes in two versions: a Base version that uses speech phonetic units (HuBERT) and an Expressive version that models expressivity using pitch and style units in addition to the phonetic units. For both versions, the text is encoded with subword BPE tokens. The resulting model displays both the semantic abilities of text models and the expressive abilities of speech models. Additionally, we demonstrate that Spirit LM can learn new tasks in a few-shot fashion across modalities (i.e. ASR, TTS, Speech Classification). We make available model weights and inference code.
연구 동기 및 목표
- 훈련 중 모달 간을 번갈아가며 학습함으로써 음성과 텍스트를 모두 생성할 수 있는 통합 언어 모델을 개발하는 것.
- 표현적인 음성 능력(주파수, 스타일 포함)을 텍스트 중심의 LLM에 통합하여 정서적 및 억양의 정확도를 향상시키는 것.
- ASR, TTS, 음성 분류를 포함한 다양한 모달 간 일반화 능력을 소수의 예시 학습을 통해 평가하는 것.
- 음성과 텍스트 모달 간 감정 유지 수준을 측정하기 위해 새로운 벤치마크인 STSP를 도입하는 것.
- 생성된 음성과 텍스트에서 추가적인 독성 수준을 평가하고, 특히 민감한 인구 통계 축을 중심으로 그 수준을 분석하는 것.
제안 방법
- 텍스트와 음성 토큰의 혼합 스트림에서 연속적인 미세조정을 통해 7B 파라미터의 LLaMA 2 기본 모델을 훈련하는 것.
- 음성을 HuBERT로 인코딩하여 음소 단위를 확보하고, EXPRESSIVE 버전에서는 표현적 모델링을 위해 주파수(F0)와 스타일 토큰을 추가하는 것.
- 특수 모달 토큰 [TEXT]과 [SPEECH]를 사용해 BPE로 인코딩된 텍스트와 음성 토큰을 번갈아 배치하며, 정렬된 음성-텍스트 데이터에서 단어 경계에서 모달 전환을 유도하는 것.
- 반복되는 음성 토큰을 제거하여 중복을 줄이고 훈련 효율을 향상시키는 것.
- 모든 번갈아진 시퀀스에 대해 다음 토큰 예측 손실을 사용하여 양방향 모달 간 최적화를 동시에 수행하는 것.
- 텍스트-음성, 음성-텍스트, 교차 모달 분류 작업을 포함한 컨텍스트 기반 학습 프롬프트를 활용해 소수의 예시 학습 능력을 평가하는 것.
실험 결과
연구 질문
- RQ1단일 언어 모델이 번갈아가며 훈련함으로써 음성과 텍스트를 유창하게 생성할 수 있는가?
- RQ2텍스트 기반 LLM이 모달 간 전환(텍스트 → 음성, 음성 → 텍스트)을 할 때 감정을 얼마나 잘 유지할 수 있는가?
- RQ3주파수와 스타일 토큰의 포함 여부가 표현적인 음성 생성과 감정 유지에 어떤 영향을 미치는가?
- RQ4생성된 음성과 텍스트에서 추가적인 독성이 어느 정도이며, 이를 인구 통계적 축에 따라 어떻게 달라지는가?
- RQ5SPIRIT LM는 소수의 예시 설정에서 ASR, TTS, 음성 분류와 같은 후행 작업으로 일반화할 수 있는가?
주요 결과
- SPIRIT LM BASE는 ASR, TTS, 음성 분류 분야에서 소수의 예시 학습에서 경쟁적인 성능을 보이며 교차 모달 일반화 능력을 입증했다.
- SPIRIT LM의 EXPRESSIVE 버전은 기준 모델 대비 모달 간 감정 유지 능력이 뛰어나, 특히 음성 → 텍스트 및 텍스트 → 음성 생성에서 두드러진다.
- STSP 벤치마크에서 SPIRIT LM는 모든 방향에서 가장 높은 감정 유지 점수를 기록했으며, S→T 방향은 가장 낮았지만 여전히 기준 모델보다 뛰어나다.
- 독성 평가 결과, SPIRIT LM BASE는 연결된 ASR+LLM+TTS 파이프라인과 유사한 ETOX 점수를 보였지만, S→S 생성에서 더 높은 MUTOX 점수를 기록하여 음성 생성에서 추가 독성이 증가함을 시사한다.
- 성별, 성적 정체성, 성적 지향 축에서는 생성된 콘텐츠에서 더 높은 추가 독성이 관찰되었고, 능력 및 국적 축은 낮은 수준을 보였으며, 모달 간 유의미한 차이는 없었다.
- 원본 LLaMA 2에 비해 텍스트 생성에서 성능 격차가 존재하여, 통합 텍스트-음성 미세조정 훈련의 향상 여지가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.