Skip to main content
QUICK REVIEW

[论文解读] The Zero Resource Speech Benchmark 2021: Metrics and baselines for unsupervised spoken language modeling

Tu Anh Nguyen, Maureen de Seyssel|arXiv (Cornell University)|Nov 23, 2020
Speech Recognition and Synthesis被引用 42
一句话总结

引入一个四任务的零样本基准用于无监督口语语言建模,以及一个简单的 CPC+聚类+LM 基线;显示可行性但与文本 toplines 的差距仍然存在。

ABSTRACT

We introduce a new unsupervised task, spoken language modeling: the learning of linguistic representations from raw audio signals without any labels, along with the Zero Resource Speech Benchmark 2021: a suite of 4 black-box, zero-shot metrics probing for the quality of the learned models at 4 linguistic levels: phonetics, lexicon, syntax and semantics. We present the results and analyses of a composite baseline made of the concatenation of three unsupervised systems: self-supervised contrastive representation learning (CPC), clustering (k-means) and language modeling (LSTM or BERT). The language models learn on the basis of the pseudo-text derived from clustering the learned representations. This simple pipeline shows better than chance performance on all four metrics, demonstrating the feasibility of spoken language modeling from raw speech. It also yields worse performance compared to text-based 'topline' systems trained on the same data, delineating the space to be explored by more sophisticated end-to-end models.

研究动机与目标

  • 定义一个零资源、黑箱式基准,用于在语音到文本的不同层面评估口语语言模型:音素、词汇、句法和语义。
  • 展示一个从原始音频而无需标签就能学习的简单无监督基线流程。
  • 提供可解释的度量指标,不依赖固定的转录粒度。
  • 提供开源数据集和基线,促进语音和文本语言建模之间的衔接。

提出的方法

  • 提出四个零样本度量(ABX用于音位/音素,sWUGGY用于词汇,sBLIMP用于句法,sSIMI用于语义)使用 Libri-light 和合成刺激。
  • 从 Contrastive Predictive Coding (CPC)、k-means 离散化,以及在伪文本上训练的语言模型(LSTM 或 BERT)构建一个复合基线。
  • 通过对 CPC 表示的聚类将音频离散化为单位,并在得到的伪文本上训练语言模型。
  • 将基线性能与在 LibriSpeech 的音位/音素表示和 RoBERTa large 上训练的文本 toplines 相比较。
  • 为 BERT 风格的模型使用简单的跨度掩码预测目标,对令牌的掩蔽跨度进行处理。
  • 提供数据集构建细节,包括 LibriSpeech LibriLight 数据、音素转写和强制对齐。

实验结果

研究问题

  • RQ1无监督口语语言模型是否能够在跨越声学、词汇、句法和语义层面的语言学驱动的零样本任务中达到非零表现?
  • RQ2一个简单的 CPC+聚类+LM 流水线在四个度量上相对于随机和基于文本的 toplines 的表现如何?
  • RQ3语音模型与文本模型之间的局限性与差距在哪里,未来工作应将重点放在哪些方面?

主要发现

  • 一个简单的 CPC+km50+LM 基线在所有四个零样本度量上都实现了超过随机的性能。
  • 词汇任务的表现高于随机,句法和语义任务低于文本 toplines。
  • 聚类(50 个簇)是 ABX 的最佳点,簇数多于 50 会在此设置中降低 ABX。
  • 端到端或更大规模的模型(如 wav2vec 风格的方法或更大规模的训练数据)显示出缩小与 toplines 差距的潜力。
  • 该基准和基线是开源的,以促进语音和文本系统的衔接。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。