[论文解读] Learning Hierarchical Discrete Linguistic Units from Visually-Grounded Speech
论文介绍了 ResDAVEnet-VQ,这是一个视觉为基础的语音模型,使用多层向量量化来学习层次化的离散语言单位,在子词 ABX 表现上取得强劲,并在更高层发现了词样探测器。
In this paper, we present a method for learning discrete linguistic units by incorporating vector quantization layers into neural models of visually grounded speech. We show that our method is capable of capturing both word-level and sub-word units, depending on how it is configured. What differentiates this paper from prior work on speech unit learning is the choice of training objective. Rather than using a reconstruction-based loss, we use a discriminative, multimodal grounding objective which forces the learned units to be useful for semantic image retrieval. We evaluate the sub-word units on the ZeroSpeech 2019 challenge, achieving a 27.3\\% reduction in ABX error rate over the top-performing submission, while keeping the bitrate approximately the same. We also present experiments demonstrating the noise robustness of these units. Finally, we show that a model with multiple quantizers can simultaneously learn phone-like detectors at a lower layer and word-like detectors at a higher layer. We show that these detectors are highly accurate, discovering 279 words with an F1 score of greater than 0.5.
研究动机与目标
- 在不使用转录的情况下,推动从语音中学习离散、层次化的语言表示。
- 利用视觉定位作为一个判别式自监督目标来塑造语音表示。
- 研究插入多个向量量化层如何产生子词和词级单位。
- 衡量所学单位对噪声和领域迁移的鲁棒性。
- 展示词样探测器的出现并量化语言可解释性。
提出的方法
- 在 ResDAVEnet 视觉为基础的语音模型中扩展多个向量量化(VQ)层(VQ2、VQ3)。
- 在判别式的多模态定位目标下训练,而不是使用重建损失。
- 对 VQ 码本使用直通估计器和 EMA 更新,码本大小为 1024。
- 实验冷启动和热启动课程以控制哪些层被量化以及何时量化。
- 端到端训练,使用三元组基的定位损失,结合随机采样和半硬负样本。
- 使用 ZeroSpeech ABX 与 R@10 指标进行评估,以及用于子词单位清单的 RLE 与基于段的比特率。
实验结果
研究问题
- RQ1在一个视觉为基础的语音模型中,多个 VQ 层能否在不使用重建损失的情况下捕捉到层次化的离散单位(子词和词样)?
- RQ2训练课程(哪些层被量化以及何时量化)如何影响语音学单位与词汇单位的出现?
- RQ3与非量化基线相比,所学单位对噪声和领域迁移是否鲁棒?
- RQ4高层量化器是否专注于词样探测,并且它们是否能映射到实际单词?
- RQ5在音素/词对应方面,所学单位的可解释性如何?
主要发现
- 受视觉定位引导的量化在插入 VQ 层的位置和方式不同的情况下,产生离散的子词和词样单位。
- 使用 VQ2 的模型(并且采用合适的课程设置)在 ABX 上相对于 ZeroSpeech 2019 顶尖提交实现了 27.3% 的提升,同时保持可比的比特率。
- 两层量化设置可以学习低层音素探测器和高层词样探测器,其中 VQ3 层显示出词级对应关系。一个模型学得 279 个单词,F1>0.5。
- 在噪声条件下,模型对噪声鲁棒,ABX 判别任务中优于 WaveNet-VQ 基线。
- 视觉定位使映射具有可解释性,VQ3 代码对齐到词样单位和可检测的单词,可通过示例单词-代码关联和基于 F1 的评估得到证据。
- 课程效果:高层量化器的冷启动训练可能削弱 ABX 但揭示词探测器,而热启动或分阶段训练则在下层保留音素信息。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。