Skip to main content
QUICK REVIEW

[论文解读] Information Retrieval for ZeroSpeech 2021: The Submission by University of Wroclaw

Jan Chorowski, Grzegorz Ciesielski|arXiv (Cornell University)|Jun 22, 2021
Speech Recognition and Synthesis参考文献 19被引用 11
一句话总结

本文提出了一种低资源、基于信息检索的方法,用于 Zero Resource Speech Challenge 2021,通过应用说话人不变投影和基于质心的去噪方法,改进了CPC的无监督语音表征,以提升音素识别(ABX)性能,同时利用伪词发现和word2vec进行语义相似度(sSIMI)计算,以及使用简单的LSTM模型处理句法(sBLIMP)任务。该方法在所有四项任务中均取得了当前最优或接近最优的结果,表明经过优化的表征显著缩小了与高计算量基线系统之间的差距。

ABSTRACT

We present a number of low-resource approaches to the tasks of the Zero Resource Speech Challenge 2021. We build on the unsupervised representations of speech proposed by the organizers as a baseline, derived from CPC and clustered with the k-means algorithm. We demonstrate that simple methods of refining those representations can narrow the gap, or even improve upon the solutions which use a high computational budget. The results lead to the conclusion that the CPC-derived representations are still too noisy for training language models, but stable enough for simpler forms of pattern matching and retrieval.

研究动机与目标

  • 在无语言监督的前提下,改进CPC的无监督语音表征,以适应零资源语音任务。
  • 减少CPC嵌入中的说话人相关差异,以提升音素级识别(ABX任务)性能。
  • 通过发现的伪词和word2vec嵌入,实现在信息检索和语义相似度估计中的有效应用。
  • 在低资源条件下,评估简单LSTM模型在句法sBLIMP任务中的性能表现。
  • 探索神经记忆与模糊检索相结合在原始音频中实现词典发现的协同效应。

提出的方法

  • 对CPC嵌入应用分解的线性投影,将其投影到说话人分类器的零空间中,以减少说话人特异性信息。
  • 通过CPC嵌入及其对应k-means聚类质心的加权平均来去噪表征,同时保留局部结构。
  • 使用SentencePiece结合unigram语言模型对语音进行分词,实现伪词分割,并通过迭代词汇优化。
  • 在分词后的伪词上训练word2vec模型,生成用于相似度任务的语义词嵌入。
  • 在量化后的零空间特征上训练简单的LSTM语言模型,用于sBLIMP句法评估任务。
  • 结合基于编辑距离的匹配方法与word2vec嵌入,以处理检索过程中出现的未登录伪词序列。

实验结果

研究问题

  • RQ1CPC嵌入的说话人不变投影是否能提升零资源音素识别中的ABX性能?
  • RQ2基于质心的CPC嵌入去噪是否能提升语音、语义和句法任务的下游性能?
  • RQ3通过无监督分词和word2vec学习发现的伪词能否生成有效的语义表征以实现语音词相似度计算?
  • RQ4在低资源条件下,基于低资源量化特征训练的简单LSTM模型在sBLIMP句法评估任务中的有效性如何?
  • RQ5结合神经记忆与模糊检索的混合方法是否能提升从原始音频中发现词典的能力?

主要发现

  • 通过结合448维零空间投影与质心平均,实现了2.93%(内部)和3.57%(跨组)的最佳ABX错误率,优于基线模型。
  • 在LibriSpeech测试集上,sSIMI任务的相关系数达到10.20%,在LibriSpeech子类别中排名第一。
  • 在sBLIMP任务中,LSTM模型在开发集和测试集上均达到53%的准确率,略高于基线,且优于随机权重(52.9%)。
  • 在应用零空间投影后,音素分类准确率下降至76.86%,表明剩余维度中仍存在残余说话人信息。
  • 在分词后的LibriSpeech转录本上训练的word2vec模型,在sSIMI合成数据集上达到16.8%的得分,优于RoBERTa的基线(32.28%)在合成部分的表现。
  • 结果表明,CPC衍生的表征噪声过大,难以用于语言建模,但足够稳定,适用于模式匹配与检索,尤其在经过去噪和聚类优化后。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。