QUICK REVIEW

[论文解读] Contrastive Knowledge Distillation for Embedding Refinement in Personalized Speech Enhancement

Thomas Serre, Mathieu Fontaine|arXiv (Cornell University)|Jan 21, 2026

Speech and Audio Processing被引用 0

一句话总结

本工作通过对比知识蒸馏，从重量级的 ECAPA-TDNN 嵌入中训练一个 150k 参数的微型说话人编码器，并将其用于轻量化个性化语音增强系统中的即时嵌入 refined，从而在低计算负载下提升性能。

ABSTRACT

Personalized speech enhancement (PSE) has shown convincing results when it comes to extracting a known target voice among interfering ones. The corresponding systems usually incorporate a representation of the target voice within the enhancement system, which is extracted from an enrollment clip of the target voice with upstream models. Those models are generally heavy as the speaker embedding's quality directly affects PSE performances. Yet, embeddings generated beforehand cannot account for the variations of the target voice during inference time. In this paper, we propose to perform on-thefly refinement of the speaker embedding using a tiny speaker encoder. We first introduce a novel contrastive knowledge distillation methodology in order to train a 150k-parameter encoder from complex embeddings. We then use this encoder within the enhancement system during inference and show that the proposed method greatly improves PSE performances while maintaining a low computational load.

研究动机与目标

在推理时考虑目标说话人语音变化来实现鲁棒的 PSE 的动机
开发一个可在现场 refined 的轻量级说话人编码器，以更好地匹配嘈杂混合中的目标语音
提出对比 KD 训练策略，使微型编码器的嵌入与重量级高质量嵌入对齐
将 refined 的嵌入整合到轻量级 PSE 框架中，以在性能和计算成本之间取得平衡

提出的方法

提出 TinyECAPA，一个 150k 参数的说话人编码器，仿照 ECAPA-TDNN 架构但使用最少的块和池化以降低复杂度
使用对比 KD 损失训练 TinyECAPA，使其投影与重量级 ECAPA-TDNN 嵌入对齐，通过逐帧的余弦相似矩阵和温度缩放的对比目标
计算输入混合音的参考嵌入（ECAPA）与 TinyECAPA 的逐帧相似度；将该相似度作为 refinement 提示，通过将缩放后的相似度与参考嵌入拼接来使用
采用 pDeepFilterNet2 作为下游 PSE 模型，移除局部信噪比估计层以进一步降低复杂度，并使用综合损失函数（光谱、溢出、多分辨率）进行训练
通过对输入的重叠片段生成嵌入实现即时 embedding refinement，并对齐目标序列进行上采样/零填充，并缩放相似度以稳定活动检测

实验结果

研究问题

RQ1能否通过对比知识蒸馏将轻量级编码器训练成尽可能接近重量级、最先进的说话人嵌入？
RQ2在不显著增加计算负担的情况下，是否通过轻量级编码器对说话人嵌入进行即时 refined，从而提升个性化语音增强性能？
RQ3与 oracle 相似度或无 refined 相比，基于相似度的 refined 提示如何影响 PSE 指标？
RQ4在不同声学轨道（头戴式 vs. 免提）和模型下，嵌入 refined 的尺度与 PSE 质量之间的权衡是什么？
RQ5所提出的基于 KD 的 TinyECAPA 是否能在显著减少参数量的情况下，在说话人验证和下游 PSE 任务中实现具竞争力的性能？

主要发现

TinyECAPA 实现了显著的规模缩减（150k 参数），仍保留有用的说话人辨识信息
对比 KD 将 TinyECAPA 的嵌入与重量级 ECAPA-TDNN 表征对齐，从而实现有效的即时 refined
在 PSE 实验中，基于相似度的嵌入 refined 优化了感知指标相较基线，且轻量相似度（TinyECAPA）在适当缩放下在 SIG 与 BAK 之间达到有利的平衡
缩放因子 alpha 至关重要；适当的缩放改善 TP/FP 平衡和整体感知质量
refined 系统在 Track 1 上达到与更大模型（如 E3Net）相竞争的性能，同时 MACs 大幅降低，显示出良好的效率-性能权衡
在 SV 任务上，TinyECAPA 虽体积更小但仍显示出合理的 EER 和 MinDCF，体现了从教师模型的有效知识迁移

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。