[论文解读] ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers
ContentVec 通过引入三种说话人解耦机制(教师、学生和说话人条件化)来在去除说话人变异的同时保留内容,从而提升与内容相关的下游任务性能。
Self-supervised learning in speech involves training a speech representation network on a large-scale unannotated speech corpus, and then applying the learned representations to downstream tasks. Since the majority of the downstream tasks of SSL learning in speech largely focus on the content information in speech, the most desirable speech representations should be able to disentangle unwanted variations, such as speaker variations, from the content. However, disentangling speakers is very challenging, because removing the speaker information could easily result in a loss of content as well, and the damage of the latter usually far outweighs the benefit of the former. In this paper, we propose a new SSL method that can achieve speaker disentanglement without severe loss of content. Our approach is adapted from the HuBERT framework, and incorporates disentangling mechanisms to regularize both the teacher labels and the learned representations. We evaluate the benefit of speaker disentanglement on a set of content-related downstream tasks, and observe a consistent and notable performance advantage of our speaker-disentangled representations.
研究动机与目标
- 动机:在自监督语音表征中解耦说话人变异,同时尽量避免对内容的显著损失。
- 提出一个 ContentVec 框架,将教师-学生的 HuBERT 风格学习与三个解耦模块相结合。
- 证明说话人解耦的表征在零-shot 探测和有监督基准中的内容相关任务上具有优势。
提出的方法
- 将 HuBERT 的掩码预测框架改造为包含三个解耦模块:(1) 在教师端实现解耦,通过语音转换从教师标签中移除说话人信息;(2) 在学生端使用对比学习目标(SimCLR 风格)并结合改变说话人的变换来实现解耦;(3) 通过将说话人嵌入注入预测器,使预测器能够获取说话人信息,从而减轻表示携带说话人信息的需求。
- 在中间层施加对比损失,以强力减少说话人信息流,并对输入的两个带说话人增强的视图应用对称损失。
- 使用说话人条件化,使预测器能够访问说话人嵌入,使学生专注于内容,而教师标签保持对说话人信息的降级。
- 以联合损失训练 L = L_pred + lambda * L_contr,其中 L_pred 是在说话人嵌入条件下的掩码预测损失,L_contr 是 SimCLR 风格的跨视图对比损失。
实验结果
研究问题
- RQ1在自监督学习训练过程中,是否可以在不造成显著内容损失的情况下解耦说话人变异?
- RQ2说话人解耦的自监督特征对下游内容相关任务的影响是什么?
- RQ3三种解耦机制(教师、学生和说话人条件化)对性能有何贡献?
- RQ4在使用来自自监督特征的离散表示时,说话人解耦是否能提升语言建模质量?
主要发现
| 模型 | ABX(w) ↓ | ABX(a) ↓ | Lexical ↓ | Syntactic ↓ | PPX ↓ | VERT ↓ | AUC ↓ |
|---|---|---|---|---|---|---|---|
| ContentVec | 5.13 | 6.32 | 33.27 | 43.95 | 650.04 | 46.05 | 45.01 |
| HuBERT-iter | 6.01 | 7.20 | 34.00 | 44.36 | 739.12 | 47.55 | 53.28 |
| HuBERT | 6.06 | 7.37 | 36.19 | 46.48 | 790.17 | 54.35 | 75.23 |
| Wav2Vec 2.0 | 8.70 | 10.34 | 35.93 | 46.40 | 840.34 | 58.59 | 88.83 |
- ContentVec 在内容相关的下游任务上相对于 HuBERT 和 Wav2Vec 2.0 等基线取得持续的改进。
- 在零-shot 内容探针中,ContentVec 在 ABX(w)、ABX(a)、Lexical 和 Syntactic 指标上均取得最佳结果, phonetic 级别任务的提升最大。
- SUPERB 内容/语义任务中,当表示用于下游任务时,ContentVec 的表现超过 HuBERT 和 HuBERT-iter。
- ContentVec 降低说话人识别和口音分类的准确度,表明有效的说话人解耦和部分口音解耦。
- 在语音转换中,基于 ContentVec 的表示相比基线具有更高的目标说话人相似度。
- 消融研究表明三种解耦模块(教师、学生和条件化)都是实现最佳性能所必需的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。