QUICK REVIEW

[論文レビュー] A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

Yingzhi Wang, Abdelmoumene Boumadane|arXiv (Cornell University)|Nov 4, 2021

Speech Recognition and Synthesis参考文献 27被引用数 93

ひとこと要約

この論文は、3つの非ASRタスク（SER、SV、SLU）で微調整済み wav2vec 2.0 と HuBERT モデルをベンチマークし、部分的および完全なファインチューニング戦略を用いてデータセット全体で最新の結果を達成している。

ABSTRACT

Speech self-supervised models such as wav2vec 2.0 and HuBERT are making revolutionary progress in Automatic Speech Recognition (ASR). However, they have not been totally proven to produce better performance on tasks other than ASR. In this work, we explored partial fine-tuning and entire fine-tuning on wav2vec 2.0 and HuBERT pre-trained models for three non-ASR speech tasks: Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding. With simple proposed downstream frameworks, the best scores reached 79.58% weighted accuracy on speaker-dependent setting and 73.01% weighted accuracy on speaker-independent setting for Speech Emotion Recognition on IEMOCAP, 2.36% equal error rate for Speaker Verification on VoxCeleb1, 89.38% accuracy for Intent Classification and 78.92% F1 for Slot Filling on SLURP, showing the strength of fine-tuned wav2vec 2.0 and HuBERT on learning prosodic, voice-print and semantic representations.

研究の動機と目的

非ASR音声タスクに対する微調整済み wav2vec 2.0 および HuBERT の有効性を示す。
下流タスクに対する部分的ファインチューニングと全体的ファインチューニングを比較する。
SER および SLU のためのオープンソースの微調整済みモデルと下流フレームワークを提供する。

提案手法

事前学習済みモデルを4つ比較する（ASRファインチューニングあり/なしの wav2vec 2.0 base/large、および ASRファインチューニングあり/なしの HuBERT base/large）。
CNNエンコーダを凍結してファインチューニングする（部分的）、または全レイヤーをファインチューニングする（全体）。
SERとSVには平均プーリング＋線形分類器の単純な下流アダプタを追加し、SLUには注意機構付きデコーダを追加する。
エンコーダと下流部品用に別々のスケジューラを用いて Adam で訓練する。
IEMOCAP（SER）、VoxCeleb1（SV）、SLURP（SLU）で評価する。

実験結果

リサーチクエスチョン

RQ1自己教師付きエンコーダのファインチューニングは、凍結特徴ベースラインを超えてSER、SV、SLUを改善できるか？
RQ2データ制約がある SER に対して、部分的ファインチューニングは全体的ファインチューニングより効果的か？
RQ3これらの下流タスクで HuBERT は wav2vec 2.0 を上回るか？
RQ4ASR ファインチューニングが非ASRタスクの性能に与える影響は？
RQ5モデルスケールの違い（base vs large）はタスク間の結果にどう影響するか？

主な発見

モデル	SER-SD WA%	SER-SI WA%	SV EER%
EF-w2v-base	75.90	70.75	2.77
PF-w2v-base	77.02	70.21	3.15
EF-w2v-base-960h	73.64	64.20	4.46
PF-w2v-base-960h	73.84	68.34	4.38
EF-w2v-large	77.00	70.96	3.42
PF-w2v-large	77.47	70.99	3.85
EF-w2v-large-960h	73.00	68.18	4.27
PF-w2v-large-960h	76.75	69.08	4.47
EF-hbt-base	76.53	69.83	2.84
PF-hbt-base	76.60	69.68	3.13
EF-hbt-large	78.52	72.31	2.86
PF-hbt-large	79.58	73.01	3.21
EF-hbt-large-960h	78.78	72.71	2.36
PF-hbt-large-960h	78.96	72.98	2.38
Frozen-w2v-base	-	63.43	6.02
Frozen-w2v-large	-	65.64	5.65
Frozen-hbt-base	-	64.92	5.11
Frozen-hbt-large	-	67.62	5.98

部分的にファインチューニングされた HuBERT large は SER-SD で 79.58% WA（最高）、SER-SI では 73.01% WA を達成。
ASR ファインチューニング付きの HuBERT large を全体的にファインチューニングすると SV で 2.36% EER（最高）、PF-960h 変種では 2.38% EER。
HuBERT は設定を問わず SER と SV で一般的に wav2vec 2.0 を上回る。
SLU の結果は EF-hbt-large で IC 89.38%、PF-hbt-large で SF 78.92% を示す。
ASR ファインチューニングは SER および SLU を一貫して改善せず、場合によっては韻律/意味情報の喪失を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。