QUICK REVIEW

[论文解读] The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural Diarization and X-Vector Clustering Systems Combined by DOVER-Lap

Shota Horiguchi, Nelson Yalta|arXiv (Cornell University)|Feb 2, 2021

Speech Recognition and Synthesis参考文献 26被引用 27

一句话总结

本文提出了用于 DIHARD III 的 Hitachi-JHU 系统，该系统由五个说话人分离子系统的集成（两个 x-vector、两个 EEND、一个混合方法）通过 DOVER-Lap 融合，在 Track 1 与 Track 2 上实现具有竞争力的 DER。

ABSTRACT

This paper provides a detailed description of the Hitachi-JHU system that was submitted to the Third DIHARD Speech Diarization Challenge. The system outputs the ensemble results of the five subsystems: two x-vector-based subsystems, two end-to-end neural diarization-based subsystems, and one hybrid subsystem. We refine each system and all five subsystems become competitive and complementary. After the DOVER-Lap based system combination, it achieved diarization error rates of 11.58 % and 14.09 % in Track 1 full and core, and 16.94 % and 20.01 % in Track 2 full and core, respectively. With their results, we won second place in all the tasks of the challenge.

研究动机与目标

通过结合互补的子系统（x-vector 聚类、端到端说话人分离和混合方法）来构建具竞争力的说话人分离。
利用 DOVER-Lap 的系统融合，并引入重叠处理和自监督适应等改进。
在 DIHARD III 的多个跟踪上进行评估，以展示在困难说话人分离情景中的鲁棒性。

提出的方法

开发两个 x-vector 子系统，采用 VBx 聚类和重叠分配（一个基于 TDNN，一个基于 Res2Net）。
开发两个端到端说话人分离子系统（EEND-EDA 和 SC-EEND），支持可变说话人数量和增强推理。
创建一个混合子系统，其中 EEND 对 x-vector 聚类结果进行后处理。
使用修改后的 DOVER-Lap 融合五个子系统，并引入假设权重以实现更好的组合。
利用评估数据的伪标签对 EEND-EDA 进行自监督适应。

实验结果

研究问题

RQ1由多种说话人分离范式（x-vector 聚类、EEND 变体和混合后处理）组成的集合是否能够在 DIHARD III 上超越单独系统？
RQ2哪种融合策略（带权重的 DOVER-Lap）在不同跟踪和条件下实现最佳 DER/JER 权衡？
RQ3在利用评估数据的伪标签时，EEND-EDA 的自监督适应是否提升了性能？
RQ4重叠检测/分配和 VAD 后处理在提升重叠语音分离中的效果如何？

主要发现

采用修改后的 DOVER-Lap 的五子系统集成在评估数据上的 DER 具有竞争力：11.58%（Track 1 全部）和 14.09%（Track 1 核心），16.94%（Track 2 全部）和 20.01%（Track 2 核心）。
各子系统相较基线有显著提升，其中 EEND-EDA 和 TDNN/x-vector+EENDasP 在多种设置下表现出色。
重叠分配、VAD 后处理和迭代推理在基于 EEND 的系统中显著降低了 DER/JER。
当在开发数据和评测数据之间使用伪标签时，自监督适应进一步提升了基于 EEND 的结果。
系统融合权重（人工调优）进一步降低了 DER，显示出在多系统融合中进行有据的加权是有价值的。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。