Skip to main content
QUICK REVIEW

[論文レビュー] The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural Diarization and X-Vector Clustering Systems Combined by DOVER-Lap

Shota Horiguchi, Nelson Yalta|arXiv (Cornell University)|Feb 2, 2021
Speech Recognition and Synthesis参考文献 26被引用数 27
ひとこと要約

この論文は、DIHARD III 用のHitachi-JHUシステムを提案する。五つの diarization subsystems (two x-vector, two EEND, one hybrid) のアンサンブルをDOVER-Lapで統合し、Track 1とTrack 2のDERで競争力を持つ。

ABSTRACT

This paper provides a detailed description of the Hitachi-JHU system that was submitted to the Third DIHARD Speech Diarization Challenge. The system outputs the ensemble results of the five subsystems: two x-vector-based subsystems, two end-to-end neural diarization-based subsystems, and one hybrid subsystem. We refine each system and all five subsystems become competitive and complementary. After the DOVER-Lap based system combination, it achieved diarization error rates of 11.58 % and 14.09 % in Track 1 full and core, and 16.94 % and 20.01 % in Track 2 full and core, respectively. With their results, we won second place in all the tasks of the challenge.

研究の動機と目的

  • 補完的なサブシステム(x-vectorクラスタリング、end-to-end diarization、ハイブリッド手法)を組み合わせて競争力のある話者ダイアリゼーションを構築することを目指す。
  • DOVER-Lapによるシステムフュージョンを活用し、オーバーラップ処理と自己教師付き適応といった改善を導入する。
  • DIHARD IIIを複数のトラックで評価し、難しいダイアリゼーション状況での頑健性を示す。

提案手法

  • VBxクラスタリングとオーバーラップ割り当てを備えた2つのx-vectorサブシステムを開発する(1つはTDNNベース、もう1つはRes2Netベース)。
  • 可変話者数と強化された推論を備えた2つのend-to-end diarizationサブシステム(EEND-EDAとSC-EEND)を開発する。
  • EENDがx-vectorクラスタリング結果を後処理するハイブリッドサブシステムを作成する。
  • 5つのサブシステムを統合するために修正されたDOVER-Lapを使用し、より良い組み合わせのための仮説ウェイトを導入する。
  • 評価データの疑似ラベルを用いたEEND-EDAの自己教師付き適応を適用する。

実験結果

リサーチクエスチョン

  • RQ1多様なダイアリゼーションパラダイム(x-vectorクラスタリング、EENDの派生、ハイブリッド後処理)のアンサンブルはDIHARD IIIで個別システムを上回ることができるか?
  • RQ2どのフュージョン戦略(ウェイト付きのDOVER-Lap)がTrackおよび条件全体で最良のDER/JERトレードオフをもたらすか?
  • RQ3評価データからの疑似ラベルを活用したEEND-EDAの自己教師付き適応は性能を改善するか?
  • RQ4オーバーラップ検知/割り当てとVAD後処理は重なりのある話者のダイアリゼーションを改善するのにどれだけ効果的か?

主な発見

  • 修正されたDOVER-Lapを含む5サブシステムのアンサンブルは競争力のあるDERを達成:Evaluationデータで、Track 1 full 11.58%、Track 1 core 14.09%、Track 2 full 16.94%、Track 2 core 20.01%だ。
  • 個々のサブシステムはベースラインより顕著な改善を示し、EEND-EDAとTDNN/x-vector+EENDasPが様々な設定で強力に機能。
  • オーバーラップ割り当て、VAD後処理、反復推論はEENDベースのシステムでDER/JERを大幅に低減。
  • 評価データの疑似ラベルを用いた自己教師付き適応はEENDベースの結果をさらに改善。
  • システムフュージョンのウェイト(手動で調整)もDER低減に寄与し、多システムフュージョンの賢明なウェイト付けの価値を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。