QUICK REVIEW

[论文解读] vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations

Alexei Baevski, Steffen Schneider|ArXiv.org|Oct 12, 2019

Speech Recognition and Synthesis参考文献 40被引用 311

一句话总结

vq-wav2vec 通过基于 wav2vec 的自监督上下文预测任务学习离散语音表征，使用 Gumbel-Softmax 或在线 k-means 进行量化，并从对离散语音进行的 BERT 预训练中受益，以提升 ASR 性能。

ABSTRACT

We propose vq-wav2vec to learn discrete representations of audio segments through a wav2vec-style self-supervised context prediction task. The algorithm uses either a gumbel softmax or online k-means clustering to quantize the dense representations. Discretization enables the direct application of algorithms from the NLP community which require discrete inputs. Experiments show that BERT pre-training achieves a new state of the art on TIMIT phoneme classification and WSJ speech recognition.

研究动机与目标

激励学习离散语音单元以实现将 NLP 技术直接应用于语音数据。
为 wav2vec 开发一个离散化模块，产生固定长度的离散码。
利用对离散化语音进行的 BERT 预训练来提升下游的 ASR 性能。

提出的方法

在 wav2vec 中扩展向量量化模块以产生离散码。
使用 Gumbel-Softmax 或在线 k-means 对密集音频表示进行基于码本的量化。
在离散化语音上训练双向 Transformer（BERT），以获得用于 ASR 的上下文丰富表示。
在 WSJ 和 TIMIT 上评估有无语言模型的 ASR 性能。

实验结果

研究问题

RQ1通过自监督上下文预测学习的离散语音表征是否能够达到或超越连续表征在 ASR 任务中的表现？
RQ2在离散化语音上进行的 BERT 预训练是否会提升在标准基准上的下游 ASR 准确性？
RQ3不同量化策略（Gumbel-Softmax 与 k-means）如何影响性能和码本利用率？
RQ4对离散化语音时的比特率、码本大小和声学模型性能之间存在哪些权衡？

主要发现

在离散化语音上进行的 BERT 预训练在 WSJ 上达到最先进的结果，在 nov92 条件下在不使用语言模型的某些设置中获得 2.34 WER。
v q-wav2vec with BERT 在 TIMIT 音素识别方面显示出强劲的结果，达到 11.64 PER（当时的最先进水平）。
Gumbel-Softmax 与 k-means 量化性能相当，当与 BERT 配对时，较大的码本可缩小与 wav2vec 的差距。
离散化使得将 NLP 风格的序列模型应用于语音成为可能，包括标准的序列到序列模型，且 Librispeech 结果有希望。
在各项实验中，与 BERT 一同用于 ASR 时，离散化表示通常优于 log-mel 特征和密集 wav2vec 输入。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。