QUICK REVIEW

[论文解读] Learning Hierarchical Discrete Linguistic Units from Visually-Grounded Speech

David Harwath, Wei-Ning Hsu|arXiv (Cornell University)|Nov 21, 2019

Multimodal Machine Learning Applications参考文献 68被引用 70

一句话总结

论文介绍了 ResDAVEnet-VQ，这是一个视觉为基础的语音模型，使用多层向量量化来学习层次化的离散语言单位，在子词 ABX 表现上取得强劲，并在更高层发现了词样探测器。

ABSTRACT

In this paper, we present a method for learning discrete linguistic units by incorporating vector quantization layers into neural models of visually grounded speech. We show that our method is capable of capturing both word-level and sub-word units, depending on how it is configured. What differentiates this paper from prior work on speech unit learning is the choice of training objective. Rather than using a reconstruction-based loss, we use a discriminative, multimodal grounding objective which forces the learned units to be useful for semantic image retrieval. We evaluate the sub-word units on the ZeroSpeech 2019 challenge, achieving a 27.3\\% reduction in ABX error rate over the top-performing submission, while keeping the bitrate approximately the same. We also present experiments demonstrating the noise robustness of these units. Finally, we show that a model with multiple quantizers can simultaneously learn phone-like detectors at a lower layer and word-like detectors at a higher layer. We show that these detectors are highly accurate, discovering 279 words with an F1 score of greater than 0.5.

研究动机与目标

在不使用转录的情况下，推动从语音中学习离散、层次化的语言表示。
利用视觉定位作为一个判别式自监督目标来塑造语音表示。
研究插入多个向量量化层如何产生子词和词级单位。
衡量所学单位对噪声和领域迁移的鲁棒性。
展示词样探测器的出现并量化语言可解释性。

提出的方法

在 ResDAVEnet 视觉为基础的语音模型中扩展多个向量量化（VQ）层（VQ2、VQ3）。
在判别式的多模态定位目标下训练，而不是使用重建损失。
对 VQ 码本使用直通估计器和 EMA 更新，码本大小为 1024。
实验冷启动和热启动课程以控制哪些层被量化以及何时量化。
端到端训练，使用三元组基的定位损失，结合随机采样和半硬负样本。
使用 ZeroSpeech ABX 与 R@10 指标进行评估，以及用于子词单位清单的 RLE 与基于段的比特率。

实验结果

研究问题

RQ1在一个视觉为基础的语音模型中，多个 VQ 层能否在不使用重建损失的情况下捕捉到层次化的离散单位（子词和词样）？
RQ2训练课程（哪些层被量化以及何时量化）如何影响语音学单位与词汇单位的出现？
RQ3与非量化基线相比，所学单位对噪声和领域迁移是否鲁棒？
RQ4高层量化器是否专注于词样探测，并且它们是否能映射到实际单词？
RQ5在音素/词对应方面，所学单位的可解释性如何？

主要发现

受视觉定位引导的量化在插入 VQ 层的位置和方式不同的情况下，产生离散的子词和词样单位。
使用 VQ2 的模型（并且采用合适的课程设置）在 ABX 上相对于 ZeroSpeech 2019 顶尖提交实现了 27.3% 的提升，同时保持可比的比特率。
两层量化设置可以学习低层音素探测器和高层词样探测器，其中 VQ3 层显示出词级对应关系。一个模型学得 279 个单词，F1>0.5。
在噪声条件下，模型对噪声鲁棒，ABX 判别任务中优于 WaveNet-VQ 基线。
视觉定位使映射具有可解释性，VQ3 代码对齐到词样单位和可检测的单词，可通过示例单词-代码关联和基于 F1 的评估得到证据。
课程效果：高层量化器的冷启动训练可能削弱 ABX 但揭示词探测器，而热启动或分阶段训练则在下层保留音素信息。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。