Skip to main content
QUICK REVIEW

[论文解读] Semantic speech retrieval with a visually grounded model of untranscribed speech

Herman Kamper, Gregory Shakhnarovich|arXiv (Cornell University)|Oct 5, 2017
Multimodal Machine Learning Applications参考文献 124被引用 49
一句话总结

该论文提出了一种视觉对齐的神经模型,通过配对的未转录语音与图像学习语义表征,利用预训练的图像标签模型生成软文本标签用于训练。在无任何转录语音的情况下,该模型在前10名语义语音检索任务中达到58.8%的精确率,优于基于转录的监督模型在非字面匹配语义检索中的表现,证明了视觉上下文在低资源语义理解中的价值。

ABSTRACT

There is growing interest in models that can learn from unlabelled speech paired with visual context. This setting is relevant for low-resource speech processing, robotics, and human language acquisition research. Here we study how a visually grounded speech model, trained on images of scenes paired with spoken captions, captures aspects of semantics. We use an external image tagger to generate soft text labels from images, which serve as targets for a neural model that maps untranscribed speech to (semantic) keyword labels. We introduce a newly collected data set of human semantic relevance judgements and an associated task, semantic speech retrieval, where the goal is to search for spoken utterances that are semantically relevant to a given text query. Without seeing any text, the model trained on parallel speech and images achieves a precision of almost 60% on its top ten semantic retrievals. Compared to a supervised model trained on transcriptions, our model matches human judgements better by some measures, especially in retrieving non-verbatim semantic matches. We perform an extensive analysis of the model and its resulting representations.

研究动机与目标

  • 探究视觉上下文是否能在低资源设置下有效对齐未转录语音的语义理解。
  • 开发一种方法,利用图像生成的软标签将未转录语音映射到语义关键词标签。
  • 在语义语音检索任务上评估模型性能,其中相关性定义超越精确关键词匹配。
  • 收集并发布一个新的数据集,包含人类标注的口语语句语义相关性判断。
  • 将视觉对齐模型与基于转录的监督模型进行比较,重点关注语义泛化能力。

提出的方法

  • 预训练的图像标签模型从训练图像中生成软文本标签(例如,'person','dog'),作为语音建模的弱监督信号。
  • 神经网络通过最小化与软图像标签的交叉熵损失,将未转录语音映射到预测的关键词标签。
  • 模型通过联合嵌入空间端到端训练,使语音与图像衍生的标签对齐。
  • 在新的语义语音检索任务上评估模型,其中文本查询可检索到语义相关但不依赖精确词汇重叠的口语语句。
  • 与多个基线模型进行比较,包括使用真实转录的监督模型以及级联的ASR + 语义模型。
  • 使用t-SNE可视化分析学习到的语音表征,并评估语义聚类效果。

实验结果

研究问题

  • RQ1在未见任何文本监督的情况下,仅使用未转录语音和图像训练的模型能否学习到检索语义相关语句的能力?
  • RQ2在检索非字面匹配的语义相关性方面,视觉对齐模型与基于转录的监督模型相比表现如何?
  • RQ3学习到的语音表征在多大程度上能将语义相关的词汇(如'man'和'person')聚类到一起?
  • RQ4模型的预测是否比基于转录的监督模型更符合人类标注的软相关性评分?
  • RQ5当ASR准确率下降时,视觉对齐模型相较于级联ASR + 语义模型的鲁棒性如何?

主要发现

  • 尽管从未接触任何转录文本,视觉对齐模型在前10名语义检索中仍达到58.8%的精确率。
  • 在检索非字面匹配的语义相关性方面,该模型优于基于转录的监督模型,语义预测正确率25.3%高于后者精确匹配的22.3%。
  • 该模型的预测与人类标注的软相关性评分相关性更强(Spearman相关系数ρ = 32.4),而监督模型的相关系数为ρ = 31.6,尤其在语义匹配方面表现更优。
  • 即使ASR错误率高达50%,视觉对齐模型(VISIONSPEECHCNN)在多数指标上仍优于级联ASR + 语义模型,包括P@10和Spearman相关系数ρ。
  • t-SNE可视化结果证实,模型学习到了语义上有意义的表征,将相关词汇如'bike'、'rides'和'riding'聚类到相似的簇中。
  • 在与人类标注的软评分对比评估时,该模型的性能优于自动文本基线模型(如TEXTPARAGRAM),表明人类判断无法被自动语义模型完全替代。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。