QUICK REVIEW

[論文レビュー] Contrastive Knowledge Distillation for Embedding Refinement in Personalized Speech Enhancement

Thomas Serre, Mathieu Fontaine|arXiv (Cornell University)|Jan 21, 2026

Speech and Audio Processing被引用数 0

ひとこと要約

この研究は heavy ECAPA-TDNN の埋め込みからコントラスト学習蒸留を通じて150kパラメータの tiny speaker encoder を訓練し、それを軽量な個別音声強化システムでの埋め込み refine に用い、計算負荷を低く保ちながら性能を向上させる。

ABSTRACT

Personalized speech enhancement (PSE) has shown convincing results when it comes to extracting a known target voice among interfering ones. The corresponding systems usually incorporate a representation of the target voice within the enhancement system, which is extracted from an enrollment clip of the target voice with upstream models. Those models are generally heavy as the speaker embedding's quality directly affects PSE performances. Yet, embeddings generated beforehand cannot account for the variations of the target voice during inference time. In this paper, we propose to perform on-thefly refinement of the speaker embedding using a tiny speaker encoder. We first introduce a novel contrastive knowledge distillation methodology in order to train a 150k-parameter encoder from complex embeddings. We then use this encoder within the enhancement system during inference and show that the proposed method greatly improves PSE performances while maintaining a low computational load.

研究の動機と目的

推論時のターゲットボイス変動を考慮して robust な PSE を実現する。
ノイズ混合時にもターゲットボイスにより近くなるよう、現場で refine 可能な軽量 speaker encoder を開発する。
tiny encoder の埋め込みを heavy で高品質な埋め込みと整合させるコントラスト蒸留訓練を提案する。
refine された埋め込みを軽量な PSE フレームワークに統合し、性能と計算コストのバランスをとる。

提案手法

ECAPA-TDNN に触発した 150k パラメータの speaker encoder TinyECAPA を導入する。小規模ブロックとプーリングで複雑さを削減。
heavy ECAPA-TDNN の埋め込みと TinyECAPA の射影を整合させるコントラスト蒸留損失を、フレーム単位のコサイン類似性マトリクスと温度付きコントラストの目的関数を用いて訓練する。
参照 embedding（ECAPA）と入力混合物の TinyECAPA 埋め込みとのフレーム単位類似度を計算し、この類似度を refine の手掛かりとして、参照埋め込みにスケールした類似度を連結して利用する。
下流の PSE モデルとして pDeepFilterNet2 を採用し、局所 SNR 推定層を削除して複雑さをさらに削減し、スペクトル・オーバースパン・マルチレゾリューションからなる複合損失で訓練する。
入力の重複チャンクから埋め込みを現場で生成し、ターゲット系列に合わせてアップサンプリング/パディング、類似度をスケーリングして活動検出を安定化させる refine を実施する。

実験結果

リサーチクエスチョン

RQ1コントラスト蒸留を用いて heavy な最先端の speaker embedding に密接に似せることができる軽量エンコーダを訓練できるか。
RQ2軽量エンコーダによる現場 refinement が計算負荷を大きく増やすことなく個別音声強化の性能を改善できるか。
RQ3類似度ベースの refine 手掛かりは oracle 類似度や refine なしと比較して PSE 指標にどのような影響を与えるか。
RQ4埋め込み refine のスケールと PSE 品質のトレードオフは、異なる音響トラック（ヘッドセット vs. スピーカーフォン）とモデルでどう変わるか。
RQ5提案された KD ベースの TinyECAPA は、パラメータを大幅に削減しつつ speaker verification と下流 PSE で競争力を持てるか。

主な発見

TinyECAPA は 150k パラメータへとサイズを大幅に削減しつつ、有用な話者識別情報を保持する。
コントラスト蒸留により TinyECAPA の埋め込みが heavy ECAPA-TDNN 表現と整合し、現場での refine を効果的に可能にする。
PSE 実験では、類似度ベースの埋め込み refine がベースラインより感覚的指標を改善し、軽い類似度（TinyECAPA）でも適切にスケーリングすれば SIG と BAK のバランスが良好。
スケーリング係数 alpha は重要で、適切なスケーリングが TP/FP のバランスと全体的な知覚品質を改善する。
refined システムは Track 1 で E3Net のような大規模モデルに対して競争的な性能を、MACs の大幅な低減とともに示し、効率-性能のバランスの良さを示す。
SV タスクでは TinyECAPA がはるかに小さなサイズにも関わらず妥当な EER と MinDCF を示し、教師モデルからの知識移転が効果的であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。