QUICK REVIEW

[논문 리뷰] Discriminative Neural Clustering for Speaker Diarisation

Qiujia Li, Florian Kreyssig|arXiv (Cornell University)|2019. 10. 22.

Speech Recognition and Synthesis참고 문헌 41인용 수 23

한 줄 요약

이 논문은 훈련 데이터에서 직접 클러스터링 패턴을 학습하는 지도 학습 기반의 시퀀스-투-시퀀스 접근 방식인 Discriminative Neural Clustering (DNC)을 제안한다. Transformer 기반 모델을 사용하여 화자 다이어라이제이션을 수행한다. 세 가지 데이터 증강 기법—서브시퀀스 랜덤라이제이션, 입력 벡터 랜덤라이제이션, Diaconis 증강—을 적용함으로써, AMI 데이터셋에서 스펙트럴 클러스터링 대비 화자 오류율(SER)을 29.4% 상대적으로 감소시켰다.

ABSTRACT

In this paper, we propose Discriminative Neural Clustering (DNC) that formulates data clustering with a maximum number of clusters as a supervised sequence-to-sequence learning problem. Compared to traditional unsupervised clustering algorithms, DNC learns clustering patterns from training data without requiring an explicit definition of a similarity measure. An implementation of DNC based on the Transformer architecture is shown to be effective on a speaker diarisation task using the challenging AMI dataset. Since AMI contains only 147 complete meetings as individual input sequences, data scarcity is a significant issue for training a Transformer model for DNC. Accordingly, this paper proposes three data augmentation schemes: sub-sequence randomisation, input vector randomisation, and Diaconis augmentation, which generates new data samples by rotating the entire input sequence of L2-normalised speaker embeddings. Experimental results on AMI show that DNC achieves a reduction in speaker error rate (SER) of 29.4% relative to spectral clustering.

연구 동기 및 목표

AMI 데이터셋에 존재하는 완전한 미팅이 단 147개 뿐인 화자 다이어라이제이션을 위한 딥 네트워크 훈련에서 데이터 부족 문제를 해결한다.
사전 정의된 유사도 측정법과 하이퍼파라미터에 의존하는 전통적인 비지도 클러스터링 방법(예: 스펙트럴 클러스터링)의 한계를 극복한다.
절대적 신원이 아닌 상대적 화자 신원을 학습하는 지도 학습 기반 클러스터링 프레임워크를 개발하여 엔드 투 엔드 훈련 가능성을 확보한다.
기존 방법이 임베딩 공간에서의 나쁜 분리로 실패하는 겹침 또는 모호한 화자 영역에서의 클러스터링 강건성을 향상시킨다.

제안 방법

Transformer 인코더-디코더 아키텍처를 사용하여 화자 다이어라이제이션 클러스터링 문제를 지도 학습 기반의 시퀀스-투-시퀀스 학습 문제로 재정의한다.
클러스터 레이블 시퀀스에 대해 교차 엔트로피 손실을 사용하여 모델을 훈련하며, 레이블은 절대적 신원이 아닌 상대적 화자 신원을 나타낸다.
서브시퀀스 랜덤라이제이션을 적용하여 전체 미팅에서 랜덤으로 샘플링한 세그먼트를 사용해 다양한 훈련 시퀀스를 생성한다.
입력 벡터 랜덤라이제이션을 구현하여 레이블 순서와 세그먼트 특징을 유지하면서 클러스터 레이블을 랜덤한 화자 신원에 재할당한다.
Diaconis 증강(Diac-Aug)을 도입하여 전체 $L_2$-정규화된 화자 임베딩 시퀀스를 초구면에서 회전시켜 새로운 훈련 샘플을 생성한다.
커리큘럼 학습(CL)을 적용하여 먼저 짧은 서브미팅에서 훈련을 시작하고 점차적으로 시퀀스 길이를 늘려 훈련 안정성과 수렴성을 향상시킨다.

실험 결과

연구 질문

RQ1Transformer와 같은 지도 학습 기반 시퀀스-투-시퀀스 모델이 명시적 유사도 측정법 없이도 화자 클러스터링 패턴을 효과적으로 학습할 수 있는가?
RQ2특화된 데이터 증강 기법이 자원이 제한된 화자 다이어라이제이션 환경에서 데이터 부족 문제를 어느 정도 완화할 수 있는가?
RQ3AMI 데이터셋에서 스펙트럴 클러스터링과 같은 강력한 비지도 기반 베이스라인 대비 DNC의 화자 오류율(SER)은 어떻게 비교되는가?
RQ4여러 가지 데이터 증강 기법의 조합이 개별 기법보다 더 나은 일반화 성능과 낮은 SER을 달성하는가?
RQ5DNC는 제한된 훈련 데이터에도 불구하고 전체 길이의 미팅에 일반화되어 최신 기술 수준의 성능을 달성할 수 있는가?

주요 결과

DNC는 전체 길이의 AMI 테스트 세트에서 스펙트럴 클러스터링 대비 29.4% 상대적인 화자 오류율(SER) 감소를 기록했으며, 절대적 SER은 16.92%였다.
'미팅' 증강과 Diaconis 증강(Diac-Aug)의 조합이 가장 우수한 성능을 보였으며, 비증강 데이터에 대한 피니팅 후 16.92% SER을 달성했다.
길이 200인 서브미팅에서 DNC는 16.75% SER을 기록했으며, 동일한 분할에서 스펙트럴 클러스터링의 22.38% SER보다 뚜렷하게 뛰어났다.
커리큘럼 학습 없이도 '미팅'과 Diac-Aug를 사용해 훈련한 DNC는 피니팅 후 34.48% SER을 기록했으며, 이는 강력한 베이스라인 성능을 보여주었다.
t-SNE를 활용한 시각화 결과, DNC는 특히 임베딩 겹침이 높은 모호한 영역에서 스펙트럴 클러스터링보다 더 잘 분리된 겹침 화자 클러스터를 보였다.
모델은 상대적 화자 신원을 반영한 복잡한 비선형 클러스터 경계를 학습하여, 거리 기반 방법보다 더 정확한 클러스터링을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.