[论文解读] Unsupervised Learning of Disentangled and Interpretable Representations from Sequential Data
提出一种因式分解的分层变分自编码器(FHVAE),用于无监督地解耦序列数据中的序列级和片段级属性,在语音应用中相较于 i-vector 基线有改进,并在不匹配条件下提升了 ASR 性能。
We present a factorized hierarchical variational autoencoder, which learns disentangled and interpretable representations from sequential data without supervision. Specifically, we exploit the multi-scale nature of information in sequential data by formulating it explicitly within a factorized hierarchical graphical model that imposes sequence-dependent priors and sequence-independent priors to different sets of latent variables. The model is evaluated on two speech corpora to demonstrate, qualitatively, its ability to transform speakers or linguistic content by manipulating different sets of latent variables; and quantitatively, its ability to outperform an i-vector baseline for speaker verification and reduce the word error rate by as much as 35% in mismatched train/test scenarios for automatic speech recognition tasks.
研究动机与目标
- 在序列数据中利用多尺度信息学习可解释的、无需监督的解耦潜在因素。
- 将属性分解为序列级(z2)和片段级(z1)潜在变量,使用序列相关先验和序列无关先验。
- 实现对片段级的可扩展推断,以处理较长序列并保持时序结构。
- 通过定性分析和定量的 ASR 与说话人验证任务,展示解耦表示的学习。
提出的方法
- 引入一个 Factorized Hierarchical Variational Autoencoder (FHVAE),具有两组潜在变量:z1(片段级)和 z2(序列级)以及每个序列的 s-vector μ2。
- P(z1) 为序列无关先验;P(z2|μ2) 为序列相关先验;P(x|z1,z2) 为高斯分布,其均值/方差由神经网络 fμx(·,·) 与 fσ2x(·,·) 给出。
- 编码器 qφ(z1|x,z2)、qφ(z2|x) 和 qφ(μ2) 为对角高斯,由 LSTM/MLP 网络参数化;一个判别目标 α log p(i|z2) 促使 z2 学会编码序列级属性。
- 利用 Seq2Seq-FHVAE 架构通过评估片段级下界而非全序列,实现对片段级的优化与可扩展性。
- 通过闭式近似(式 (Eq. 5))对测试时 μ2 的推断进行近似,从 z2 后验推断出发,使其可作为话语级表示使用。
实验结果
研究问题
- RQ1一个因式分解的分层 VAE 能否在没有监督的情况下从序列数据中学习出解耦、可解释的序列级和片段级潜在因子?
- RQ2在语音中,片段级(z1)和序列级(z2)潜在变量是否分别与语言内容和说话人/通道属性对齐?
- RQ3学习到的潜在变量是否比基线(如 i-vector 和 β-VAE 特征)在说话人验证和领域不变的 ASR 中表现更好?
- RQ4在 ASR 的领域不匹配下,片段级潜在表征是否具有鲁棒性,并对语音转换或降噪任务有用?
主要发现
| Features | Dimension | Alpha | Raw | LDA (12 dim) | LDA (24 dim) |
|---|---|---|---|---|---|
| i-vector | 48 | - | 10.12% | 6.25% | 5.95% |
| i-vector | 100 | - | 9.52% | 6.10% | 5.50% |
| i-vector | 200 | - | 9.82% | 6.54% | 6.10% |
| μ2 | 16 | 0 | 5.06% | 4.02% | - |
| μ2 | 16 | 1e-1 | 4.91% | 4.61% | - |
| μ2 | 16 | 1 | 3.87% | 3.86% | - |
| μ2 | 16 | 1e1 | 2.38% | 2.08% | - |
| μ2 | 32 | 1e1 | 2.38% | 2.08% | 1.34% |
- 在说话人验证(TIMIT)中,μ2(16–32 维)在 Raw 和 LDA 设置下优于 i-vector 基线,当 μ2 为 32 维且 α=10^1 时,达到最低 2.38% EER。
- 在领域不匹配的 ASR(Aurora-4)中,片段级 z1 特征在多种噪声/通道条件下显著降低 WER,并在若干不匹配域中超越了 FBank 和 β-VAE 基线。
- 用不同的说话人替换 z2 可以得到保留语言内容的语音转换输出,证明了说话人和内容的解耦。
- 定性分析表明 z1 捕捉片段级的语言内容,z2 捕捉序列级属性,从而通过交换 μ2 相关表示实现去噪。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。