Skip to main content
QUICK REVIEW

[论文解读] Neural Speaker Diarization with Speaker-Wise Chain Rule

Yusuke Fujita, Shinji Watanabe|arXiv (Cornell University)|Jun 2, 2020
Speech Recognition and Synthesis参考文献 36被引用 41
一句话总结

介绍一种说话人级条件推断方法(SC-EEND),使用概率链式法则逐步解码说话人活动,支持变量数量的说话人并在 DER 方面优于以往的 EEND 方法。

ABSTRACT

Speaker diarization is an essential step for processing multi-speaker audio. Although an end-to-end neural diarization (EEND) method achieved state-of-the-art performance, it is limited to a fixed number of speakers. In this paper, we solve this fixed number of speaker issue by a novel speaker-wise conditional inference method based on the probabilistic chain rule. In the proposed method, each speaker's speech activity is regarded as a single random variable, and is estimated sequentially conditioned on previously estimated other speakers' speech activities. Similar to other sequence-to-sequence models, the proposed method produces a variable number of speakers with a stop sequence condition. We evaluated the proposed method on multi-speaker audio recordings of a variable number of speakers. Experimental results show that the proposed method can correctly produce diarization results with a variable number of speakers and outperforms the state-of-the-art end-to-end speaker diarization methods in terms of diarization error rate.

研究动机与目标

  • 解决端到端神经说话人识别(EEND)中的固定说话人数限制。
  • 提出一个基于概率链式法则的说话人级条件推断框架。
  • 实现对可变数量说话人的 diarization,并设定停止条件。
  • 引入 teacher forcing 以提高训练稳定性和性能。
  • 在 CALLHOME 和模拟的可变说话人数数据集上进行评估,以与 EEND 和 x-vector+AHC 方法进行比较。

提出的方法

  • 将说话人 diarization 建模为每个说话人语音活动随机变量的联合分布,并通过链式法则利用先前估计的说话人来逐步解碼 (P(y1,...,yS|X))。
  • 使用一个说话人级条件神经网络(SCNN),它接收 X 以及前一说话人的语音活动来产生 z_s,t 的概率。
  • 采用带有 Transformer 编码器和基于 LSTM 的解码器的编码-解码架构,以生成可变长度的说话人输出。
  • 使用置换不变训练(PIT)来处理说话人排序;探索两种损失策略(贪婪和带 TF 的两阶段 PIT)。
  • 在训练期间,通过输入真实的前一说话人活动来应用教师 forcing,并使用两阶段 PIT 损失来确定最优说话人顺序。
  • 迭代解码,直到产生一个零向量以表示没有更多说话人。

实验结果

研究问题

  • RQ1基于说话人级链式规则的模型是否能够在产生准确的 diarization 的同时处理可变数量的说话人?
  • RQ2将每个说话人条件化为先前估计的说话人是否比传统 EEND 提高了性能?
  • RQ3在可变说话人数情景下,教师 forcing 和两阶段 PIT 对 DER 的影响是什么?
  • RQ4在固定两说话人和可变说话人数据集上,SC-EEND 与 x-vector+AHC 和标准 EEND 的对比如何?

主要发现

模型训练DER
x-vector+AHC-11.53
EENDPIT9.70
SC-EENDPIT9.95
SC-EENDGreedy+TF9.01
SC-EENDPIT+TF8.86
  • SC-EEND 结合 PIT+TF 在两说话人 CALLHOME 数据上相较于传统 EEND 提高了 DER(8.86% vs 9.70%)。
  • SC-EEND 结合 PIT+TF 在可变说话人数的模拟数据上取得强劲 DER,优于 EEND 和 Greedy+TF,尤其是说话人数增加时。
  • 在可变说话人 CALLHOME 上,SC-EEND 结合 PIT+TF 实现 DER 15.75%,优于 x-vector+AHC 和 EEND 基线。
  • 无 TF 时,SC-EEND 收益有限;TF 在可变说话人数场景中显著提升性能。
  • 在若干实验中,两阶段 PIT 损失通常比 Greedy+TF 或单阶段 PIT 获得略优的 DER。
  • SC-EEND 在说话人计数准确性方面优于 x-vector+AHC,尽管处理超过四个说话人仍具有挑战性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。