Skip to main content
QUICK REVIEW

[论文解读] Learning Hierarchical Discrete Linguistic Units from Visually-Grounded Speech

David Harwath, Wei-Ning Hsu|arXiv (Cornell University)|Nov 21, 2019
Multimodal Machine Learning Applications参考文献 68被引用 70
一句话总结

论文介绍了 ResDAVEnet-VQ,这是一个视觉为基础的语音模型,使用多层向量量化来学习层次化的离散语言单位,在子词 ABX 表现上取得强劲,并在更高层发现了词样探测器。

ABSTRACT

In this paper, we present a method for learning discrete linguistic units by incorporating vector quantization layers into neural models of visually grounded speech. We show that our method is capable of capturing both word-level and sub-word units, depending on how it is configured. What differentiates this paper from prior work on speech unit learning is the choice of training objective. Rather than using a reconstruction-based loss, we use a discriminative, multimodal grounding objective which forces the learned units to be useful for semantic image retrieval. We evaluate the sub-word units on the ZeroSpeech 2019 challenge, achieving a 27.3\\% reduction in ABX error rate over the top-performing submission, while keeping the bitrate approximately the same. We also present experiments demonstrating the noise robustness of these units. Finally, we show that a model with multiple quantizers can simultaneously learn phone-like detectors at a lower layer and word-like detectors at a higher layer. We show that these detectors are highly accurate, discovering 279 words with an F1 score of greater than 0.5.

研究动机与目标

  • 在不使用转录的情况下,推动从语音中学习离散、层次化的语言表示。
  • 利用视觉定位作为一个判别式自监督目标来塑造语音表示。
  • 研究插入多个向量量化层如何产生子词和词级单位。
  • 衡量所学单位对噪声和领域迁移的鲁棒性。
  • 展示词样探测器的出现并量化语言可解释性。

提出的方法

  • 在 ResDAVEnet 视觉为基础的语音模型中扩展多个向量量化(VQ)层(VQ2、VQ3)。
  • 在判别式的多模态定位目标下训练,而不是使用重建损失。
  • 对 VQ 码本使用直通估计器和 EMA 更新,码本大小为 1024。
  • 实验冷启动和热启动课程以控制哪些层被量化以及何时量化。
  • 端到端训练,使用三元组基的定位损失,结合随机采样和半硬负样本。
  • 使用 ZeroSpeech ABX 与 R@10 指标进行评估,以及用于子词单位清单的 RLE 与基于段的比特率。

实验结果

研究问题

  • RQ1在一个视觉为基础的语音模型中,多个 VQ 层能否在不使用重建损失的情况下捕捉到层次化的离散单位(子词和词样)?
  • RQ2训练课程(哪些层被量化以及何时量化)如何影响语音学单位与词汇单位的出现?
  • RQ3与非量化基线相比,所学单位对噪声和领域迁移是否鲁棒?
  • RQ4高层量化器是否专注于词样探测,并且它们是否能映射到实际单词?
  • RQ5在音素/词对应方面,所学单位的可解释性如何?

主要发现

  • 受视觉定位引导的量化在插入 VQ 层的位置和方式不同的情况下,产生离散的子词和词样单位。
  • 使用 VQ2 的模型(并且采用合适的课程设置)在 ABX 上相对于 ZeroSpeech 2019 顶尖提交实现了 27.3% 的提升,同时保持可比的比特率。
  • 两层量化设置可以学习低层音素探测器和高层词样探测器,其中 VQ3 层显示出词级对应关系。一个模型学得 279 个单词,F1>0.5。
  • 在噪声条件下,模型对噪声鲁棒,ABX 判别任务中优于 WaveNet-VQ 基线。
  • 视觉定位使映射具有可解释性,VQ3 代码对齐到词样单位和可检测的单词,可通过示例单词-代码关联和基于 F1 的评估得到证据。
  • 课程效果:高层量化器的冷启动训练可能削弱 ABX 但揭示词探测器,而热启动或分阶段训练则在下层保留音素信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。