Skip to main content
QUICK REVIEW

[论文解读] An Unsupervised Autoregressive Model for Speech Representation Learning

Yu-An Chung, Wei-Ning Hsu|arXiv (Cornell University)|Apr 5, 2019
Speech Recognition and Synthesis参考文献 34被引用 46
一句话总结

本论文提出 Autoregressive Predictive Coding (APC),是一种无监督自回归模型,从对数Mel频谱提取学习通用语音表征,在不使用标签的情况下改进电话分类和说话人验证。

ABSTRACT

This paper proposes a novel unsupervised autoregressive neural model for learning generic speech representations. In contrast to other speech representation learning methods that aim to remove noise or speaker variabilities, ours is designed to preserve information for a wide range of downstream tasks. In addition, the proposed model does not require any phonetic or word boundary labels, allowing the model to benefit from large quantities of unlabeled data. Speech representations learned by our model significantly improve performance on both phone classification and speaker verification over the surface features and other supervised and unsupervised approaches. Further analysis shows that different levels of speech information are captured by our model at different layers. In particular, the lower layers tend to be more discriminative for speakers, while the upper layers provide more phonetic content.

研究动机与目标

  • 激励在没有音素边界或标签的情况下学习通用、与任务无关的语音表征。
  • 开发一个自回归模型以预测未来的谱帧并保留供下游任务使用的信息。
  • 表明 APC 表征使线性分类器在跨数据集的音素分类和说话人验证任务上表现良好。

提出的方法

  • 提出使用带残差连接的多层单向 LSTM 的 Autoregressive Predictive Coding (APC),以从过去的帧预测未来帧。
  • 训练以最小化输入与预测未来帧之间的 L1 损失,并利用时间移位因子鼓励发现全局结构。
  • 通过在不同的负采样和前瞻步配置下分析所捕获的信息(音素 vs 说话人)来将 APC 与 Contrastive Predictive Coding (CPC) 进行比较。
  • 使用 80 维的 log Mel 特征作为输入,并从最后一层 LSTM 提取表征(可选地也从先前层提取)用于下游任务。

实验结果

研究问题

  • RQ1无监督自回归模型是否能够学习在不同数据集和任务中可迁移且不需要语言标签的语音表征?
  • RQ2在不同的 APC 层捕获了哪些信息(音素 vs 说话人)以及时间前瞻预测步如何影响它?
  • RQ3与 CPC 和表面特征相比,APC 表征是否能改善下游的音素分类和说话人验证?
  • RQ4表示深度和层选择如何影响说话人验证的性能?

主要发现

  • APC 在音素分类上优于 CPC 变体和表面特征,表明线性分类器可访问到更丰富的音素信息。
  • 更深的 APC 模型在音素分类上表现更好,最佳点在预测前瞻几个步骤左右。
  • 在说话人验证方面,APC 表征超过 i-vector 和最佳 CPC 基线,特别是在使用保留更多说话人信息的较低 APC 层时。
  • 较低的 APC 层包含更多说话人信息,而较高的层捕获更多音素内容,表明信息在各层之间的分布类似于语言模型。
  • 该方法通过在 LibriSpeech 上训练并在 WSJ 和 TIMIT 上评估,展示了对域转移的鲁棒性和可迁移性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。