QUICK REVIEW

[논문 리뷰] SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks

Kai-Wei Chang, Yu–Kai Wang|arXiv (Cornell University)|2023. 03. 01.

Speech Recognition and Synthesis인용 수 16

한 줄 요약

SpeechPrompt v2는 학습 가능한 발화기로 최소한의 학습 가능한 매개변수를 사용해 다양한 음성 분류 작업을 수행하며 여러 언어와 작업에서 경쟁력 있거나 최첨단 결과를 달성한다.

ABSTRACT

Prompt tuning is a technology that tunes a small set of parameters to steer a pre-trained language model (LM) to directly generate the output for downstream tasks. Recently, prompt tuning has demonstrated its storage and computation efficiency in both natural language processing (NLP) and speech processing fields. These advantages have also revealed prompt tuning as a candidate approach to serving pre-trained LM for multiple tasks in a unified manner. For speech processing, SpeechPrompt shows its high parameter efficiency and competitive performance on a few speech classification tasks. However, whether SpeechPrompt is capable of serving a large number of tasks is unanswered. In this work, we propose SpeechPrompt v2, a prompt tuning framework capable of performing a wide variety of speech classification tasks, covering multiple languages and prosody-related tasks. The experiment result shows that SpeechPrompt v2 achieves performance on par with prior works with less than 0.15M trainable parameters in a unified framework.

연구 동기 및 목표

매개변수 효율적이고 통합된 프롬프트를 통한 음성 분류의 필요성에 동기 부여.
내용 및 억양 작업과 다중 언어에 걸쳐 작동하는 프롬팅 프레임워크 개발.
경쟁력 있는 성능을 유지하면서 학습 가능한 매개변수 감소.
LM 출력에서 작업 레이블로의 매핑을 개선하기 위한 학습 가능한 발화자 도입.
광범위한 작업군에서 일반화와 한계 평가.

제안 방법

고정된 사전 학습된 구어 LLM(GSLM 및 pGSLM)을 백본으로 사용하되 매개변수는 동결.
입력 임베딩과 결합된 작고 작업 특이적인 프롬프트 벡터를 학습하고 이를 Transformer 계층의 심층 prompting에 사용.
작업 레이블로 LM 출력 분포를 매핑하기 위해 학습 가능한 발화자(선형 모델)를 적용하고 프롬프트와 함께 공동으로 학습.
작업별 하이퍼파라미터 조정 없음; 고정 프롬프트 길이(l=5) 및 프롬프트 크기(~0.128M 매개변수).
14개 데이터셋에서 10개 음성 분류 작업을 다중 언어 및 음성 특성에 걸쳐 평가.
완전 감독 및 사전 학습/미세 조정 패러다임 하에서 SOTA와 비교.

Fig. 1 : The proposed SpeechPrompt v2. It demonstrates versatility and performs competitively in various speech classification tasks with minimal parameters updated. The pre-trained spoken LMs are frozen, while only the small set of prompt vectors are trainable.

실험 결과

연구 질문

RQ1SpeechPrompt v2가 최소한의 학습 가능한 매개변수로 넓은 범위의 음성 분류 작업에서 경쟁력 있는 성능을 달성할 수 있는가?
RQ2학습 가능한 발화자가 음성 LLM의 프롬프트 성능을 일관되게 향상시키는가?
RQ3Content 관련 작업과 Prosody 관련 작업 및 언어 전반에서 SpeechPrompt v2의 성능 차이는 어떠한가?
RQ4영어나 다양한 음성 데이터에서 프롬프트 튜닝의 한계 및 안정성 문제는 무엇인가?

주요 결과

작업	지표	데이터셋	언어	클래스 수	SOTA(최고 성능)	GSLM	GSLM+	pGSLM	pGSLM+
SCR	ACC (↑)	Google SC v1	En	12	98.6 [10]	94.5	94.6	94.3	94.7 (-3.9)
Grabo SC	ACC (↑)	Google SC v1?	Du	36	98.9 [11]	92.4	92.7 (-6.2)	17.5	19.6
Lithuanian SC	ACC (↑)	Lithuanian SC	Lt	15	91.8 [9]	93.2	95.5 (+3.7)	90.9	79.5
Arabic SC	ACC (↑)	Arabic SC	Ar	16	98.9 [9]	99.7	100.0 (+1.1)	85.6	92.6
IC	ACC (↑)	Fluent SC	En	24	99.7 [12]	97.2	97.3	98.1	98.2 (-1.5)
LID	ACC (↑)	Voxforge	En, Es, Fr De, Ru, It	6	99.8 [13]	90.9	94.2 (-5.6)	81.8	80.4
FSD	EER (↓)	ASVspoof	En	2	2.5 [13]	18.5	13.5	13.1 (+10.6)	18.3
ER	ACC (↑)	IEMOCAP	En	4	79.2 [13]	42.1	44.3	49.9	50.2 (-29)
AcC	ACC (↑)	AccentDB	En	9	99.5 [14]	78.9	83.4	86.5	87.1 (-12.4)
SD	F1 (↑)	MUStARD	En	2	64.6 [15]	55.0	77.8	74.4	78.7 (+13.1)
GI D	F1 (↑)	VoxCeleb1	En	2	98.3 [17]	86.2	87.3	91.6 (-6.7)	86.2
VAD	ACC (↑)	Google SC v2 & Freesound	En	2	98.8 [18]	96.6	96.9	98.3 (-0.5)	98.1
AuC	ACC (↑)	ESC-50	✖	50	97.0 [19]	9.0	37.5 (-59.5)	20.3	27.0

SpeechPrompt v2는 여러 작업에서 경쟁력 있는 성능을 달성하며, 일부 작업에서 최첨단 상태의 결과를 보여준다(예: Lithuanian SCR, Arabic SCR, Sarcasm Detection).
프레임워크는 매개변수 효율적이어서 작업당 학습 가능한 음성-LM 매개변수의 비율이 0.1% 미만(~0.15M)이다.
학습 가능한 발화자는 대부분의 작업에서 성능을 향상시키며, 단위-레이블 매핑에 대한 SHAP 분석으로 설명 가능성을 일반적으로 높인다.
프롬프트 튜닝은 비영어권 또는 매우 다양한 음성 데이터에서 불안정성과 성능 편차를 보이는 경향이 있으며, 작업별 하이퍼파라미터 최적화는 수행되지 않았다.
프롬oting은 하나의 통합된 단순화된 파이프라인을 가능하게 하여 넓은 음성 분류 작업군에서 SOTA에 접근하거나 이를 따라잡을 수 있지만 일부 작업은 완전 감독 또는 사전 학습/미세 조정 방법보다 뒤처질 수 있다.

Fig. 2 : The comparison between Frequency-Mapping Verbalizer (A) and the proposed learnable verbalizer in SpeechPrompt v2 (B).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.