Skip to main content
QUICK REVIEW

[논문 리뷰] SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts

Haibin Wu, Kai-Wei Chang|arXiv (Cornell University)|2023. 06. 03.
Topic Modeling인용 수 10
한 줄 요약

SpeechGen은 다양한 음성 생성 작업에 대해 음성 언어 모델을 자극하기 위해 프롬프트 벡터(≈10M 매개변수)만 조정하는 통합적이며 텍스트 없는 프롬프트 프레임워크를 도입하여, 백본 모델을 업데이트하지 않고도 효율적인 음성-음성 생성이 가능하게 한다.

ABSTRACT

Large language models (LLMs) have gained considerable attention for Artificial Intelligence Generated Content (AIGC), particularly with the emergence of ChatGPT. However, the direct adaptation of continuous speech to LLMs that process discrete tokens remains an unsolved challenge, hindering the application of LLMs for speech generation. The advanced speech LMs are in the corner, as that speech signals encapsulate a wealth of information, including speaker and emotion, beyond textual data alone. Prompt tuning has demonstrated notable gains in parameter efficiency and competitive performance on some speech classification tasks. However, the extent to which prompts can effectively elicit generation tasks from speech LMs remains an open question. In this paper, we present pioneering research that explores the application of prompt tuning to stimulate speech LMs for various generation tasks, within a unified framework called SpeechGen, with around 10M trainable parameters. The proposed unified framework holds great promise for efficiency and effectiveness, particularly with the imminent arrival of advanced speech LMs, which will significantly enhance the capabilities of the framework. The code and demos of SpeechGen will be available on the project website: \url{https://ga642381.github.io/SpeechPrompt/speechgen}

연구 동기 및 목표

  • 음성 LMs에서 생성 능력을 이끌어내기 위한 프롬프트 튜닝의 사용을 동기화한다.
  • 작은 수의 학습 가능한 프롬프트로 여러 음성 생성 작업을 처리하는 통합적인 텍스트 없는 프레임워크(SpeechGen)를 개발한다.
  • 용 backbone LM으로 Unit mBART를 사용하여 음성 번역, 음성 인페인팅, 및 연속 생성에 대한 사례 연구를 보여준다.
  • 미래의 고급 음성 LM에 대해서도 프롬프트-튜닝 접근 방식의 효율성, 전이성, 비용 효율성을 보여준다.

제안 방법

  • 소프트 프롬프트를 음성 LM의 입력에 삽입하여 LM 매개변수를 변경하지 않고 생성을 유도한다.
  • 시퀀스-투-시퀀스 LM에서 인코더 프롬프트와 디코더 프롬프트를 추가하여 입력 z = [p^E, x; p^D, y]를 형성한다.
  • 초기 K/V 프롬프트 키를 학습 가능한 프롬프트 벡터로 교체하여 다층 어텐션에 영향을 주는 딥 프롬프트 튜닝을 적용한다.
  • 셀프-슈퍼바이즈드 모델(HuBERT 등)이 생성한 타깃 이산 단위에 대해 교차 엔트로피를 사용해 프롬프트 벡터만 학습하여 단위 기반 보코더의 출력 단위를 생성한다.
  • 입력 파형을 이산 단위로 변환하고 프롬프팅 LM으로 처리한 뒤 보코더를 통해 파형으로 다시 디코딩하는 텍스트 없는 파이프라인을 유지한다.
  • 세 가지 작업(음성 번역, 음성 인페인팅, 음성 연속 생성)에서 Unit mBART를 백본 LM으로 사용하여 프레임워크를 시연한다.

실험 결과

연구 질문

  • RQ1프롬프트가 텍스트 없는 음성 LMs에서 생성 작업을 효과적으로 이끌어낼 수 있는가?
  • RQ2통합적이고 매개변수 효율적인 프롬프트링 프레임워크가 번역, 인페인팅, 연속 생성 등 여러 음성 생성 작업에서 얼마나 잘 작동하는가?
  • RQ3딥 프롬프트 튜닝을 사용해 고정된 음성 LM을 음성 생성으로 조정하는 데 있어 트레이드오프는 무엇인가?
  • RQ4SpeechGen은 Unit mBART 외의 향후 고급 음성 LM에 얼마나 잘 전이되는가?
  • RQ5작은 학습 가능한 매개변수 예산(~10M)으로 텍스트 없는 음성 생성의 실현 가능성과 효율성은 어떠한가?

주요 결과

  • Speech 번역 성능은 BLEU-1 43.8, BLEU-2 30.4, BLEU-3 21.8, BLEU-4 15.9로 달성되었으며 Spanish→English에서 SpeechGen과 함께 Unit mBART를 사용하였다.
  • SpeechInpainting 결과는 WER 25.42% 및 CER 13.85%(SpeechGen)로, 손상된 기준선(WER 27.96%, CER 13.47%) 대비 개선 여지가 있지만 복원 가능성을 시사한다.
  • SpeechContinuation 결과는 다양한 조건 비율에서도 perplexity와 auto-BLEU를 보고하며 시드 세그먼트에 비해 다양성과 문법 관련 연속 생성이 유지됨을 보여준다.
  • 프레임워크는 약 10M 학습 가능한 매개변수(프롬프트 벡터)로 구성되며 백본 LM은 업데이트하지 않아 효율성과 비용 측면에서 우수함을 강조한다.
  • SpeechGen은 텍스트 없는 다재다능하고 전이 가능한 접근 방식을 보여주며 연구된 예시를 넘어 미래의 음성 LMs 및 작업에 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.