QUICK REVIEW

[論文レビュー] Neural Speaker Diarization with Speaker-Wise Chain Rule

Yusuke Fujita, Shinji Watanabe|arXiv (Cornell University)|Jun 2, 2020

Speech Recognition and Synthesis参考文献 36被引用数 41

ひとこと要約

スピーカーごとの条件付き推論法（SC-EEND）を導入。確率連鎖則を用いてスピーカー活動を逐次デコードし、話者数を可変に、従来のEEND法よりDERを改善。

ABSTRACT

Speaker diarization is an essential step for processing multi-speaker audio. Although an end-to-end neural diarization (EEND) method achieved state-of-the-art performance, it is limited to a fixed number of speakers. In this paper, we solve this fixed number of speaker issue by a novel speaker-wise conditional inference method based on the probabilistic chain rule. In the proposed method, each speaker's speech activity is regarded as a single random variable, and is estimated sequentially conditioned on previously estimated other speakers' speech activities. Similar to other sequence-to-sequence models, the proposed method produces a variable number of speakers with a stop sequence condition. We evaluated the proposed method on multi-speaker audio recordings of a variable number of speakers. Experimental results show that the proposed method can correctly produce diarization results with a variable number of speakers and outperforms the state-of-the-art end-to-end speaker diarization methods in terms of diarization error rate.

研究の動機と目的

エンドツーエンド神経 diarization (EEND) の固定話者数の制限へ対処する。
確率的連鎖則に基づく話者ごとの条件付き推論フレームワークを提案する。
ストップ条件を用いて可変話者数のディアライゼーションを可能にする。
教師 forcing を導入してトレーニングの安定性と性能を向上させる。
CALLHOME および変動話者データのシミュレーションデータセットで評価し、EEND および x-vector+AHC 法と比較する。

提案手法

話者ごとの話者活動ランダム変数の結合分布として話者ディアライゼーションをモデル化し、連鎖則を用いて推定済みの話者を用いて逐次デコードする（P(y1,...,yS|X)）。
X と前の話者の話者活動を受け取る話者ごとの条件付きニューラルネットワーク（SCNN）を用いて z_s,t の確率を生成する。
Transformer エンコーダと LSTM ベースのデコーダを用いたエンコーダ-デコーダアーキテクチャを採用し、可変長の話者出力を生成する。
話者の順序を扱うための permutation-invariant training (PIT) で学習する。2つの損失戦略（Greedy、TFを伴う2段 PIT）を検討する。
訓練中には、グラウンドトゥルースの前の話者活動を入力して teacher forcing を適用し、最適な話者順序を決定するために2段 PIT 損失を用いる。
ゼロベクトルが生成されるまでデコードを反復し、これを話者がもういないことのシグナルとする。）

実験結果

リサーチクエスチョン

RQ1話者ごとチェーンルールベースのモデルは、可変話者数を扱いながら正確なディアライゼーションを実現できるか？
RQ2各話者を前に推定された話者に条件付けすることは、従来の EEND より性能を向上させるか？
RQ3可変話者シナリオにおける DER に対する teacher forcing および2段 PIT の影響は？
RQ4固定2話者および可変話者データセット全体で、SC-EENDは x-vector+AHC および標準の EEND とどのように比較されるか？

主な発見

モデル	訓練	DER
x-vector+AHC	-	11.53
EEND	PIT	9.70
SC-EEND	PIT	9.95
SC-EEND	Greedy+TF	9.01
SC-EEND	PIT+TF	8.86

PIT+TF を用いた SC-EEND は、2話者 CALLHOME で従来の EEND より DER を改善（8.86% vs 9.70%）。
PIT+TF を用いた SC-EEND は、可変話者のシミュレーションデータで強力な DER を達成し、EENDおよびGreedy+TFを上回り、話者数が増えるほど特に優位である。
可変話者 CALLHOME で、PIT+TF の SC-EEND は DER 15.75% を達成し、x-vector+AHC および EEND のベースラインより良い。
TFなしのSC-EENDは限られた改善しか示さず、変動話者設定ではTFが性能を大幅に向上させる。
2段 PIT 損失は、いくつかの実験で Greedy+TF や単段 PIT よりわずかに良い DER を示す。
SC-EEND は x-vector+AHC より話者カウント精度が高いことを示しているが、4人を超える話者の扱いは依然課題である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。