QUICK REVIEW

[논문 리뷰] SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition

Lukas Drude, Jens Heitkaemper|arXiv (Cornell University)|2019. 10. 30.

Speech and Audio Processing참고 문헌 29인용 수 58

한 줄 요약

SMS-WSJ은 다채널 시뮬레이티드 WSJ 기반 데이터베이스를 무작위 방 형상과 함께 제시하고, 다중 화자 소스 분리 및 인식에 대한 완전한 baseline과 메트릭 논의, Kaldi/TDNN-F baseline를 포함합니다.

ABSTRACT

We present a multi-channel database of overlapping speech for training, evaluation, and detailed analysis of source separation and extraction algorithms: SMS-WSJ -- Spatialized Multi-Speaker Wall Street Journal. It consists of artificially mixed speech taken from the WSJ database, but unlike earlier databases we consider all WSJ0+1 utterances and take care of strictly separating the speaker sets present in the training, validation and test sets. When spatializing the data we ensure a high degree of randomness w.r.t. room size, array center and rotation, as well as speaker position. Furthermore, this paper offers a critical assessment of recently proposed measures of source separation performance. Alongside the code to generate the database we provide a source separation baseline and a Kaldi recipe with competitive word error rates to provide common ground for evaluation.

연구 동기 및 목표

WSJ 발화로 구축된 다채널 겹치는 대화 데이터베이스를 무작위 기하학으로 제어 가능한 리얼리즘으로 제공하기.
다채널 소스 분리 및 인식의 성능 지표를 비판적으로 평가하기.
공정한 비교와 재현성을 가능하게 하는 baseline BSS 파이프라인 및 ASR 레시피를 제공하기.

제안 방법

WSJ si284, dev93, eval92 발화를 8 kHz로 다운샘플링하여 33,561개의 학습 혼합, 491개의 검증, 333개의 테스트 혼합을 구성합니다.
무작위 방 크기, 배열 위치, 화자 위치를 사용하여 원시 채널에서 초기 음성 및 늦은 음성 구성 요소를 구분하기 위한 원형 10 cm 반경 배열과 무작위 지연으로 방물리 응답을 시뮬레이션합니다.
다양한 SDR 변형(SI-SDR, BSS-Eval SDR)과 지각 메트릭(PESQ, STOI) 및 WER을 평가하여 분리 품질과 다운스트림 인식을 포괄적으로 평가합니다.
마스킹 및 MVDR 빔포밍, 공분산 추정을 위한 왜곡 마스킹을 갖춘 복소 각도 중심 가우시안 혼합 모델(cACGMM)을 기반으로 한 소스 분리 베이스라인을 제공합니다.
초기 도착 음성 이미지를 사용한 Kaldi 기반의 음성 인식 베이스라인을 제공하여 TDNN-F 음향 모델을 통해 경쟁력 있는 WER 베이스라인을 가능하게 합니다.
데이터베이스, 메트릭, 베이스라인을 재현하기 위한 문서화 및 코드가 SMS-WSJ 저장소로 제공됩니다.

실험 결과

연구 질문

RQ1다채널, 원거리 말소리 분리의 성능이 다양하고 무작위가 섞인 기하학 구성에서 어떻게 나타나는가?
RQ2잔향 조건에서 다채널 BSS를 평가하는 가장 신뢰할 수 있는 성능 지표는 무엇이며 어떻게 해석해야 하는가?
RQ3실용적인 baseline BSS 파이프라인과 ASR 레시피가 SMS-WSJ 데이터에서 경쟁력 있는 성능을 달성할 수 있는가?
RQ4다양한 베이스라인(예: 마스킹, MVDR, 다양한 빔포머)이 Kaldi ASR 설정에서 다운스트림 WER에 어떤 영향을 미치는가?

주요 결과

SMS-WSJ 데이터베이스는 무작위 방 기하학과 소스로 구성된 WSJ 발화를 기반으로 크고 다양하며 완전 재현 가능한 다채널 데이터세트를 제공하여 분리 알고리즘의 견고한 평가를 가능하게 한다.
다수의 SDR 변형과 지각 메트릭은 소스 신호를 참조로 사용하는 BSS-Eval SDR이 채널 선택에 따라 안정적이며 원거리 분리 평가에 대해 정보성을 유지하는 반면, SI-SDR은 짧은 FIR 유사 왜곡에 민감할 수 있음을 보여준다.
마스킹과 MVDR 빔포밍을 결합한 기본 cACGMM은 마스킹만 사용할 때보다 WER를 향상시키며 공간적 클러스터링과 빔포밍의 이점을 보여준다.
초기 도착 음성 이미지를 ASR 정렬에 사용하는 것은 공간적으로 혼합된 음성의 존재하에서도 오디오 모델 학습에 유리하며, Kaldi TDNN-F 레시피가 경쟁력 있는 WER를 달성한다.
저자는 여러 보완 메트릭(WER 포함)을 사용하는 것을 권고하고 멀리 있는 평가를 위해 SI-SDR보다 소스 신호 참조가 있는 BSS-Eval SDR을 선호한다.
표 2는 MVDR 기반 베이스라인이 SMS-WSJ 테스트 세트에서 마스킹만 사용한 경우보다 WER이 더 좋음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.