QUICK REVIEW

[论文解读] Discriminative Neural Clustering for Speaker Diarisation

Qiujia Li, Florian Kreyssig|arXiv (Cornell University)|Oct 22, 2019

Speech Recognition and Synthesis参考文献 41被引用 23

一句话总结

本文提出判别性神经聚类（DNC），一种基于Transformer模型的监督序列到序列方法，通过直接从训练数据中学习聚类模式来执行说话人分割。通过应用三种数据增强技术——子序列随机化、输入向量随机化以及Diaconis增强（Diac-Aug），DNC在AMI数据集上将说话人错误率（SER）相对降低了29.4%。

ABSTRACT

In this paper, we propose Discriminative Neural Clustering (DNC) that formulates data clustering with a maximum number of clusters as a supervised sequence-to-sequence learning problem. Compared to traditional unsupervised clustering algorithms, DNC learns clustering patterns from training data without requiring an explicit definition of a similarity measure. An implementation of DNC based on the Transformer architecture is shown to be effective on a speaker diarisation task using the challenging AMI dataset. Since AMI contains only 147 complete meetings as individual input sequences, data scarcity is a significant issue for training a Transformer model for DNC. Accordingly, this paper proposes three data augmentation schemes: sub-sequence randomisation, input vector randomisation, and Diaconis augmentation, which generates new data samples by rotating the entire input sequence of L2-normalised speaker embeddings. Experimental results on AMI show that DNC achieves a reduction in speaker error rate (SER) of 29.4% relative to spectral clustering.

研究动机与目标

解决在训练说话人分割深度神经网络时数据稀缺的问题，其中AMI数据集中仅有147个完整会议。
克服传统无监督聚类方法（如谱聚类）依赖预定义相似性度量和超参数的局限性。
开发一种监督聚类框架，学习相对说话人身份而非绝对身份，从而具备端到端训练的潜力。
提升在重叠或模糊说话人区域的聚类鲁棒性，因为传统方法在嵌入空间中分离效果差而失效。

提出的方法

将说话人分割聚类建模为使用Transformer编码器-解码器架构的监督序列到序列学习问题。
使用交叉熵损失函数在聚类标签序列上进行模型训练，其中标签表示相对说话人身份而非绝对身份。
应用子序列随机化，通过从完整会议中采样随机片段来生成多样化的训练序列。
通过将聚类标签重新分配给随机说话人身份，同时保持标签顺序和片段特征不变，实现输入向量随机化。
引入Diaconis增强（Diac-Aug），即在超球面上旋转整个$L_2$-归一化说话人嵌入序列，以生成新的训练样本。
采用课程学习（CL），先在较短的子会议数据上进行训练，然后逐步增加序列长度，以提升训练稳定性和收敛性。

实验结果

研究问题

RQ1像Transformer这样的监督序列到序列模型是否能有效学习说话人聚类模式，而无需显式相似性度量？
RQ2有针对性的数据增强技术在低资源说话人分割设置下，能在多大程度上缓解数据稀缺问题？
RQ3在AMI数据集上，DNC与强无监督基线方法（如谱聚类）相比，其说话人错误率（SER）表现如何？
RQ4多种数据增强方案的组合是否能带来比单一技术更优的泛化能力与更低的SER？
RQ5尽管训练数据有限，DNC是否能泛化到完整长度会议，并实现最先进性能？

主要发现

与谱聚类相比，DNC在完整长度AMI测试集上实现了29.4%的相对SER降低，绝对SER为16.92%。
‘会议’增强与Diaconis增强（Diac-Aug）的组合表现最佳，在非增强数据上微调后达到16.92%的SER。
在长度为200的子会议中，DNC的SER为16.75%，显著优于谱聚类在相同划分下的22.38%。
即使不使用课程学习，仅通过‘会议’增强与Diac-Aug训练的DNC在微调后仍能达到34.48%的SER，表明其基线性能强大。
使用t-SNE的可视化结果表明，DNC在重叠说话人聚类的分离效果优于谱聚类，尤其在嵌入空间重叠较高的模糊区域。
该模型学习到复杂的非线性聚类边界，准确反映相对说话人身份，从而实现比基于距离的方法更精确的聚类。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。