Skip to main content
QUICK REVIEW

[论文解读] Look, Listen and Learn - A Multimodal LSTM for Speaker Identification

Jimmy Ren, Yongtao Hu|arXiv (Cornell University)|Feb 13, 2016
Speech and Audio Processing参考文献 34被引用 53
一句话总结

本文提出了一种多模态长短期记忆(LSTM)网络,通过在时间步和模态之间共享权重,从序列处理的初始阶段统一视觉与听觉模态的表征。该模型在说话人识别任务中实现了最先进性能,显著提升了对图像退化和干扰物的鲁棒性,在使用3.0秒投票窗口的《生活大爆炸》数据集上达到了91.38%的准确率。

ABSTRACT

Speaker identification refers to the task of localizing the face of a person who has the same identity as the ongoing voice in a video. This task not only requires collective perception over both visual and auditory signals, the robustness to handle severe quality degradations and unconstrained content variations are also indispensable. In this paper, we describe a novel multimodal Long Short-Term Memory (LSTM) architecture which seamlessly unifies both visual and auditory modalities from the beginning of each sequence input. The key idea is to extend the conventional LSTM by not only sharing weights across time steps, but also sharing weights across modalities. We show that modeling the temporal dependency across face and voice can significantly improve the robustness to content quality degradations and variations. We also found that our multimodal LSTM is robustness to distractors, namely the non-speaking identities. We applied our multimodal LSTM to The Big Bang Theory dataset and showed that our system outperforms the state-of-the-art systems in speaker identification with lower false alarm rate and higher recognition accuracy.

研究动机与目标

  • 解决在严重图像退化和干扰物存在的真实视频中进行说话人识别的挑战。
  • 通过共享LSTM架构,从序列处理的起点统一视觉与听觉模态。
  • 通过跨模态权重共享,提升对干扰物和图像质量变化的鲁棒性。
  • 在统一的深度学习框架中建模多模态高层特征之间的长期时间依赖关系。
  • 与现有最先进方法相比,在真实视频数据上展示出更优越的性能。

提出的方法

  • 提出一种新颖的多模态LSTM,通过在时间步和模态之间共享权重,实现对时间依赖性和跨模态相关性的联合学习。
  • 通过在视觉和听觉模态之间引入输出变换(W_y)的共享权重矩阵,扩展标准LSTM结构。
  • 采用统一架构,使两种模态的特定特征从第一个时间步开始同步处理,避免使用独立的处理流程。
  • 在滑动窗口(0.5秒,步长0.25秒)上应用时间池化和投票策略,以提升真实视频序列中的识别稳定性。
  • 采用联合训练目标,当时间对齐存在时,鼓励模态间的一致性标签预测。
  • 调整softmax输出的阈值m以生成ROC曲线,并优化检测性能。

实验结果

研究问题

  • RQ1在LSTM架构中采用跨模态权重共享是否能提升说话人识别对图像退化和干扰物的鲁棒性?
  • RQ2使用统一的多模态LSTM对视觉和听觉序列建模时间依赖关系,是否优于分别处理各模态的方法?
  • RQ3多模态LSTM是否能在不假设模态间存在先验相关性的情况下,学习到人脸与语音序列之间的有意义时间相关性?
  • RQ4在具有可变干扰物数量和图像质量的现实视频场景中,该方法与最先进系统相比表现如何?
  • RQ5完全的跨模态权重共享与部分共享或无共享相比,对分类准确率和误报率的影响是什么?

主要发现

  • 所提出的多模态LSTM在《生活大爆炸》S01E03数据集上,使用3.0秒投票窗口,实现了91.38%的说话人命名准确率,优于以往最先进方法。
  • 完全的跨模态权重共享显著降低了误报率,并提升了识别准确率,相比无共享或半共享方案表现更优。
  • 该模型对模糊和遮挡等图像退化表现出卓越的鲁棒性,在单模态CNN失败的场景中仍能正确识别说话人。
  • 即使在存在多个干扰物的场景中,系统仍保持高性能,展现出对非说话人身份的强大排斥能力。
  • 完全的跨模态权重共享策略优于独立的单模态LSTM和部分共享的混合模型。
  • 该方法是首个在统一框架中对多模态高层特征建模长期依赖关系的方法,实现了说话人识别的最先进结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。