Skip to main content
QUICK REVIEW

[論文レビュー] Discriminative Neural Clustering for Speaker Diarisation

Qiujia Li, Florian Kreyssig|arXiv (Cornell University)|Oct 22, 2019
Speech Recognition and Synthesis参考文献 41被引用数 23
ひとこと要約

本稿では、教師ありsequence-to-sequenceアプローチとして、Transformerモデルを用いて訓練データから直接クラスタリングパターンを学習する、判別的ニューラルクラスタリング(DNC)を提案する。3つのデータ拡張技術—部分シーケンスのランダム化、入力ベクトルのランダム化、Diaconis拡張—を適用することで、AMIデータセットにおいてスペクトラルクラスタリングと比較して発話者誤り率(SER)を相対的に29.4%低減した。

ABSTRACT

In this paper, we propose Discriminative Neural Clustering (DNC) that formulates data clustering with a maximum number of clusters as a supervised sequence-to-sequence learning problem. Compared to traditional unsupervised clustering algorithms, DNC learns clustering patterns from training data without requiring an explicit definition of a similarity measure. An implementation of DNC based on the Transformer architecture is shown to be effective on a speaker diarisation task using the challenging AMI dataset. Since AMI contains only 147 complete meetings as individual input sequences, data scarcity is a significant issue for training a Transformer model for DNC. Accordingly, this paper proposes three data augmentation schemes: sub-sequence randomisation, input vector randomisation, and Diaconis augmentation, which generates new data samples by rotating the entire input sequence of L2-normalised speaker embeddings. Experimental results on AMI show that DNC achieves a reduction in speaker error rate (SER) of 29.4% relative to spectral clustering.

研究の動機と目的

  • AMIデータセットに存在する147件の完全なミーティングのみを用いた発話者diarisationのための深層ニューラルネットワークの学習におけるデータ不足の課題に対処する。
  • 事前に定義された類似度測度やハイパーパrameterに依存する従来の非教師ありクラスタリング手法(例:スペクトラルクラスタリング)の限界を克服する。
  • 絶対的アイデンティティではなく相対的発話者アイデンティティを学習する教師ありクラスタリングフレームワークを構築し、エンドツーエンド学習の可能性を高める。
  • 従来の手法が埋め込み空間での分離が不十分なために失敗する、重複する発話者領域や曖昧な領域におけるクラスタリングのロバスト性を向上させる。

提案手法

  • Transformerエンコーダ・デコーダアーキテクチャを用いて、発話者diarisationクラスタリングを教師ありsequence-to-sequence学習問題として定式化する。
  • クラスタラベルシーケンスに対して交差エントロピー損失を用い、ラベルが絶対的アイデンティティではなく相対的発話者アイデンティティを表すようにモデルを学習する。
  • 部分シーケンスのランダム化を適用し、完全なミーティングからランダムに抽出したセグメントを用いて多様な訓練シーケンスを生成する。
  • 入力ベクトルのランダム化を実装し、ラベルの順序とセグメント特徴を保持したまま、クラスタラベルをランダムな発話者アイデンティティに再割り当てる。
  • Diaconis拡張(Diac-Aug)を導入し、全$ L_2 $正規化済み発話者埋め込みシーケンスを超球面上で回転させることで、新たな訓練サンプルを生成する。
  • カリキュラム学習(CL)を採用し、最初に短いサブミーティングで学習を行い、徐々にシーケンス長を延長することで、学習の安定性と収束性を向上させる。

実験結果

リサーチクエスチョン

  • RQ1スペクトラルクラスタリングなど、明示的な類似度測度を必要としない、Transformerのような教師ありsequence-to-sequenceモデルが、発話者クラスタリングパターンを効果的に学習できるか。
  • RQ2的を絞ったデータ拡張技術が、リソースが限られた発話者diarisation環境におけるデータ不足をどの程度緩和できるか。
  • RQ3AMIデータセットにおける発話者誤り率(SER)の観点から、DNCはスペクトラルクラスタリングなどの強力な非教師ありベースラインと比べてどのように差をつけるか。
  • RQ4複数のデータ拡張方式の組み合わせが、個別の手法よりも優れた汎化性能と低いSERを達成するか。
  • RQ5DNCは、限られた訓練データのもとでも、長時間のミーティングに一般化し、最先端の性能を達成できるか。

主な発見

  • DNCは、フル長さのAMIテストセットにおいて、スペクトラルクラスタリングと比較して29.4%の相対的SER低減を達成し、絶対的SERは16.92%であった。
  • 「ミーティング」とDiaconis拡張(Diac-Aug)の組み合わせが最良の性能を示し、非拡張データでのファインチューニング後、SERは16.92%にまで低下した。
  • 長さ200のサブミーティングにおいて、DNCは16.75%のSERを達成したが、同じスプリットでスペクトラルクラスタリングは22.38%にとどまった。
  • カリキュラム学習を用いなくても、「ミーティング」とDiac-Augを併用したDNCは、ファインチューニング後に34.48%のSERを達成し、強力なベースライン性能を示した。
  • t-SNEを用いた可視化では、DNCがスペクトラルクラスタリングよりも重複する発話者クラスタを明確に分離しており、特に埋め込みの重なりが大きい曖昧な領域で顕著であった。
  • モデルは相対的発話者アイデンティティを反映する複雑な非線形クラスタ境界を学習しており、距離ベースの手法よりも正確なクラスタリングを可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。