Skip to main content
QUICK REVIEW

[论文解读] The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural Diarization and X-Vector Clustering Systems Combined by DOVER-Lap

Shota Horiguchi, Nelson Yalta|arXiv (Cornell University)|Feb 2, 2021
Speech Recognition and Synthesis参考文献 26被引用 27
一句话总结

本文提出了用于 DIHARD III 的 Hitachi-JHU 系统,该系统由五个说话人分离子系统的集成(两个 x-vector、两个 EEND、一个混合方法)通过 DOVER-Lap 融合,在 Track 1 与 Track 2 上实现具有竞争力的 DER。

ABSTRACT

This paper provides a detailed description of the Hitachi-JHU system that was submitted to the Third DIHARD Speech Diarization Challenge. The system outputs the ensemble results of the five subsystems: two x-vector-based subsystems, two end-to-end neural diarization-based subsystems, and one hybrid subsystem. We refine each system and all five subsystems become competitive and complementary. After the DOVER-Lap based system combination, it achieved diarization error rates of 11.58 % and 14.09 % in Track 1 full and core, and 16.94 % and 20.01 % in Track 2 full and core, respectively. With their results, we won second place in all the tasks of the challenge.

研究动机与目标

  • 通过结合互补的子系统(x-vector 聚类、端到端说话人分离和混合方法)来构建具竞争力的说话人分离。
  • 利用 DOVER-Lap 的系统融合,并引入重叠处理和自监督适应等改进。
  • 在 DIHARD III 的多个跟踪上进行评估,以展示在困难说话人分离情景中的鲁棒性。

提出的方法

  • 开发两个 x-vector 子系统,采用 VBx 聚类和重叠分配(一个基于 TDNN,一个基于 Res2Net)。
  • 开发两个端到端说话人分离子系统(EEND-EDA 和 SC-EEND),支持可变说话人数量和增强推理。
  • 创建一个混合子系统,其中 EEND 对 x-vector 聚类结果进行后处理。
  • 使用修改后的 DOVER-Lap 融合五个子系统,并引入假设权重以实现更好的组合。
  • 利用评估数据的伪标签对 EEND-EDA 进行自监督适应。

实验结果

研究问题

  • RQ1由多种说话人分离范式(x-vector 聚类、EEND 变体和混合后处理)组成的集合是否能够在 DIHARD III 上超越单独系统?
  • RQ2哪种融合策略(带权重的 DOVER-Lap)在不同跟踪和条件下实现最佳 DER/JER 权衡?
  • RQ3在利用评估数据的伪标签时,EEND-EDA 的自监督适应是否提升了性能?
  • RQ4重叠检测/分配和 VAD 后处理在提升重叠语音分离中的效果如何?

主要发现

  • 采用修改后的 DOVER-Lap 的五子系统集成在评估数据上的 DER 具有竞争力:11.58%(Track 1 全部)和 14.09%(Track 1 核心),16.94%(Track 2 全部)和 20.01%(Track 2 核心)。
  • 各子系统相较基线有显著提升,其中 EEND-EDA 和 TDNN/x-vector+EENDasP 在多种设置下表现出色。
  • 重叠分配、VAD 后处理和迭代推理在基于 EEND 的系统中显著降低了 DER/JER。
  • 当在开发数据和评测数据之间使用伪标签时,自监督适应进一步提升了基于 EEND 的结果。
  • 系统融合权重(人工调优)进一步降低了 DER,显示出在多系统融合中进行有据的加权是有价值的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。