QUICK REVIEW

[论文解读] Neural Speaker Diarization with Speaker-Wise Chain Rule

Yusuke Fujita, Shinji Watanabe|arXiv (Cornell University)|Jun 2, 2020

Speech Recognition and Synthesis参考文献 36被引用 41

一句话总结

介绍一种说话人级条件推断方法（SC-EEND），使用概率链式法则逐步解码说话人活动，支持变量数量的说话人并在 DER 方面优于以往的 EEND 方法。

ABSTRACT

Speaker diarization is an essential step for processing multi-speaker audio. Although an end-to-end neural diarization (EEND) method achieved state-of-the-art performance, it is limited to a fixed number of speakers. In this paper, we solve this fixed number of speaker issue by a novel speaker-wise conditional inference method based on the probabilistic chain rule. In the proposed method, each speaker's speech activity is regarded as a single random variable, and is estimated sequentially conditioned on previously estimated other speakers' speech activities. Similar to other sequence-to-sequence models, the proposed method produces a variable number of speakers with a stop sequence condition. We evaluated the proposed method on multi-speaker audio recordings of a variable number of speakers. Experimental results show that the proposed method can correctly produce diarization results with a variable number of speakers and outperforms the state-of-the-art end-to-end speaker diarization methods in terms of diarization error rate.

研究动机与目标

解决端到端神经说话人识别（EEND）中的固定说话人数限制。
提出一个基于概率链式法则的说话人级条件推断框架。
实现对可变数量说话人的 diarization，并设定停止条件。
引入 teacher forcing 以提高训练稳定性和性能。
在 CALLHOME 和模拟的可变说话人数数据集上进行评估，以与 EEND 和 x-vector+AHC 方法进行比较。

提出的方法

将说话人 diarization 建模为每个说话人语音活动随机变量的联合分布，并通过链式法则利用先前估计的说话人来逐步解碼 (P(y1,...,yS|X))。
使用一个说话人级条件神经网络（SCNN），它接收 X 以及前一说话人的语音活动来产生 z_s,t 的概率。
采用带有 Transformer 编码器和基于 LSTM 的解码器的编码-解码架构，以生成可变长度的说话人输出。
使用置换不变训练（PIT）来处理说话人排序；探索两种损失策略（贪婪和带 TF 的两阶段 PIT）。
在训练期间，通过输入真实的前一说话人活动来应用教师 forcing，并使用两阶段 PIT 损失来确定最优说话人顺序。
迭代解码，直到产生一个零向量以表示没有更多说话人。

实验结果

研究问题

RQ1基于说话人级链式规则的模型是否能够在产生准确的 diarization 的同时处理可变数量的说话人？
RQ2将每个说话人条件化为先前估计的说话人是否比传统 EEND 提高了性能？
RQ3在可变说话人数情景下，教师 forcing 和两阶段 PIT 对 DER 的影响是什么？
RQ4在固定两说话人和可变说话人数据集上，SC-EEND 与 x-vector+AHC 和标准 EEND 的对比如何？

主要发现

模型	训练	DER
x-vector+AHC	-	11.53
EEND	PIT	9.70
SC-EEND	PIT	9.95
SC-EEND	Greedy+TF	9.01
SC-EEND	PIT+TF	8.86

SC-EEND 结合 PIT+TF 在两说话人 CALLHOME 数据上相较于传统 EEND 提高了 DER（8.86% vs 9.70%）。
SC-EEND 结合 PIT+TF 在可变说话人数的模拟数据上取得强劲 DER，优于 EEND 和 Greedy+TF，尤其是说话人数增加时。
在可变说话人 CALLHOME 上，SC-EEND 结合 PIT+TF 实现 DER 15.75%，优于 x-vector+AHC 和 EEND 基线。
无 TF 时，SC-EEND 收益有限；TF 在可变说话人数场景中显著提升性能。
在若干实验中，两阶段 PIT 损失通常比 Greedy+TF 或单阶段 PIT 获得略优的 DER。
SC-EEND 在说话人计数准确性方面优于 x-vector+AHC，尽管处理超过四个说话人仍具有挑战性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。