[论文解读] Neural Speaker Diarization with Speaker-Wise Chain Rule
介绍一种说话人级条件推断方法(SC-EEND),使用概率链式法则逐步解码说话人活动,支持变量数量的说话人并在 DER 方面优于以往的 EEND 方法。
Speaker diarization is an essential step for processing multi-speaker audio. Although an end-to-end neural diarization (EEND) method achieved state-of-the-art performance, it is limited to a fixed number of speakers. In this paper, we solve this fixed number of speaker issue by a novel speaker-wise conditional inference method based on the probabilistic chain rule. In the proposed method, each speaker's speech activity is regarded as a single random variable, and is estimated sequentially conditioned on previously estimated other speakers' speech activities. Similar to other sequence-to-sequence models, the proposed method produces a variable number of speakers with a stop sequence condition. We evaluated the proposed method on multi-speaker audio recordings of a variable number of speakers. Experimental results show that the proposed method can correctly produce diarization results with a variable number of speakers and outperforms the state-of-the-art end-to-end speaker diarization methods in terms of diarization error rate.
研究动机与目标
- 解决端到端神经说话人识别(EEND)中的固定说话人数限制。
- 提出一个基于概率链式法则的说话人级条件推断框架。
- 实现对可变数量说话人的 diarization,并设定停止条件。
- 引入 teacher forcing 以提高训练稳定性和性能。
- 在 CALLHOME 和模拟的可变说话人数数据集上进行评估,以与 EEND 和 x-vector+AHC 方法进行比较。
提出的方法
- 将说话人 diarization 建模为每个说话人语音活动随机变量的联合分布,并通过链式法则利用先前估计的说话人来逐步解碼 (P(y1,...,yS|X))。
- 使用一个说话人级条件神经网络(SCNN),它接收 X 以及前一说话人的语音活动来产生 z_s,t 的概率。
- 采用带有 Transformer 编码器和基于 LSTM 的解码器的编码-解码架构,以生成可变长度的说话人输出。
- 使用置换不变训练(PIT)来处理说话人排序;探索两种损失策略(贪婪和带 TF 的两阶段 PIT)。
- 在训练期间,通过输入真实的前一说话人活动来应用教师 forcing,并使用两阶段 PIT 损失来确定最优说话人顺序。
- 迭代解码,直到产生一个零向量以表示没有更多说话人。
实验结果
研究问题
- RQ1基于说话人级链式规则的模型是否能够在产生准确的 diarization 的同时处理可变数量的说话人?
- RQ2将每个说话人条件化为先前估计的说话人是否比传统 EEND 提高了性能?
- RQ3在可变说话人数情景下,教师 forcing 和两阶段 PIT 对 DER 的影响是什么?
- RQ4在固定两说话人和可变说话人数据集上,SC-EEND 与 x-vector+AHC 和标准 EEND 的对比如何?
主要发现
| 模型 | 训练 | DER |
|---|---|---|
| x-vector+AHC | - | 11.53 |
| EEND | PIT | 9.70 |
| SC-EEND | PIT | 9.95 |
| SC-EEND | Greedy+TF | 9.01 |
| SC-EEND | PIT+TF | 8.86 |
- SC-EEND 结合 PIT+TF 在两说话人 CALLHOME 数据上相较于传统 EEND 提高了 DER(8.86% vs 9.70%)。
- SC-EEND 结合 PIT+TF 在可变说话人数的模拟数据上取得强劲 DER,优于 EEND 和 Greedy+TF,尤其是说话人数增加时。
- 在可变说话人 CALLHOME 上,SC-EEND 结合 PIT+TF 实现 DER 15.75%,优于 x-vector+AHC 和 EEND 基线。
- 无 TF 时,SC-EEND 收益有限;TF 在可变说话人数场景中显著提升性能。
- 在若干实验中,两阶段 PIT 损失通常比 Greedy+TF 或单阶段 PIT 获得略优的 DER。
- SC-EEND 在说话人计数准确性方面优于 x-vector+AHC,尽管处理超过四个说话人仍具有挑战性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。