Skip to main content
QUICK REVIEW

[论文解读] Attention-Based Models for Text-Dependent Speaker Verification

F A Rezaur Rahman Chowdhury, Quan Wang|arXiv (Cornell University)|Oct 28, 2017
Natural Language Processing Techniques参考文献 7被引用 50
一句话总结

本文将注意力机制注入端到端文本相关说话人验证系统,在非注意力的LSTM基线上显示EER改进,最佳结果来自分层注意力和滑动窗口池化。

ABSTRACT

Attention-based models have recently shown great performance on a range of tasks, such as speech recognition, machine translation, and image captioning due to their ability to summarize relevant information that expands through the entire length of an input sequence. In this paper, we analyze the usage of attention mechanisms to the problem of sequence summarization in our end-to-end text-dependent speaker recognition system. We explore different topologies and their variants of the attention layer, and compare different pooling methods on the attention weights. Ultimately, we show that attention-based models can improves the Equal Error Rate (EER) of our speaker verification system by relatively 14% compared to our non-attention LSTM baseline model.

研究动机与目标

  • 通过注意力机制聚焦于与音素相关的帧来改进文本相关说话人验证。
  • 在端到端TD-SV框架中比较多种注意力层拓扑和池化方法。
  • 以等错误率(EER)衡量的验证准确性提升进行量化。

提出的方法

  • 在TD-SV的端到端LSTM-based d-vector框架中使用基于关键字的片段。
  • 引入注意力层以计算帧级权重并形成加权d-vector。
  • 探索打分函数:仅偏置、线性、共享参数线性、非线性,以及共享参数非线性。
  • 提出注意力层变体:跨层注意力和分层注意力。
  • 应用注意力权重的池化方法:无池化、滑动窗口最大池化和全局前K最大池化。

实验结果

研究问题

  • RQ1增加注意力是否能在基线端到端TD-SV模型上改善EER?
  • RQ2哪种注意力打分函数能获得最佳性能?
  • RQ3注意力层的变体(跨层、分层)是否相对于基本注意力有优势?
  • RQ4对注意力权重进行池化(滑动窗口或前K)是否进一步提高验证性能?

主要发现

测试数据非注意力基线f_BOf_Lf_SLf_NLf_SNL
OK Google → OK Google0.880.850.810.800.790.78
OK Google → Hey Google2.772.972.742.752.692.66
Hey Google → OK Google2.192.302.282.232.142.08
Hey Google → Hey Google1.051.041.031.031.001.01
Average1.721.791.721.701.661.63
  • 基于注意力的模型相对于基线在平均EER上有所降低:采用基本注意力时从1.72%下降到1.63%,并且通过优化变体可达到1.63%或更好。
  • 共享参数非线性注意力结合分层连接在平均EER上优于其他配置(1.56% vs 1.63%(基本))。
  • 分层注意力在评估集上优于跨层注意力。
  • 在注意力权重上使用滑动窗口最大池化将EER提升至1.48%平均,优于无池化和前K池化。
  • 最佳实践组合相对于无注意力基线(1.72%)实现了14%的相对改进(从1.72%到1.48%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。