Skip to main content
QUICK REVIEW

[논문 리뷰] The VOiCES from a Distance Challenge 2019 Evaluation Plan

Mahesh Kumar Nandwana, Julien van Hout|arXiv (Cornell University)|2019. 02. 27.
Speech Recognition and Synthesis참고 문헌 8인용 수 34
한 줄 요약

VOiCES from a Distance Challenge 2019 평가 계획은 멀리 떨어진/noisy 오디오에서 화자 인식 및 ASR 수행 과제를 설정하며, 고정/개방 학습 조건, 개발/평가 세트, 특정 주요 지표 및 llr 기반 지표, 그리고 Interspeech 2019 특별 세션 제출 규칙을 포함한다.

ABSTRACT

The "VOiCES from a Distance Challenge 2019" is designed to foster research in the area of speaker recognition and automatic speech recognition (ASR) with the special focus on single channel distant/far-field audio, under noisy conditions. The main objectives of this challenge are to: (i) benchmark state-of-the-art technology in the area of speaker recognition and automatic speech recognition (ASR), (ii) support the development of new ideas and technologies in speaker recognition and ASR, (iii) support new research groups entering the field of distant/far-field speech processing, and (iv) provide a new, publicly available dataset to the community that exhibits realistic distance characteristics.

연구 동기 및 목표

  • 시끄러운 환경에서의 원거리/원격 음성 인식 및 ASR의 발전을 촉진한다.
  • 실제적인 잔향과 배경 소음을 갖춘 VOiCES 코퍼스를 사용하여 최첨단 기술을 벤치마킹한다.
  • 고정/개방 학습 조건에서 시스템을 공정하게 비교할 수 있는 공개 데이터 세트와 프레임워크를 제공한다.
  • 새로운 연구자와 그룹의 참여를 독려하고 출판을 위한 설명 및 분석 기고를 촉진한다.
  • 평가 데이터 공개(단계 2)를 제공하고 Interspeech 2019의 특별 세션을 주최한다.

제안 방법

  • 두 가지 과제: 화자 인식과 자동 음성 인식(ASR)을 정의한다.
  • 각 과제에 대해 학습 조건을 명시한다: 고정(제한된 공개 데이터) 및 개방(임의의 데이터).
  • 잔향 및 소음을 포함한 VOiCES 코퍼스로 개발 및 평가 데이터를 제공한다.
  • 화자 인식 평가에 기본 탐지 비용 지표 C_det와 대안 C_llr를 사용한다.
  • 화자 인식의 각 트라이얼 LLR 및 ASR의 WER를 사용하여 제출물을 채점하고 표준화된 채점 스크립트를 사용한다.
  • 화자 인식 제출을 위한 CTM 형식의 ASR 전사와 LLR 기반 점수 파일을 요구한다.

실험 결과

연구 질문

  • RQ1현시대 최첨단 시스템이 실제 잔향 및 배경 소음이 있는 원거리/원격 음성에서 얼마나 잘 작동하는가?
  • RQ2학습 데이터 제약(고정 vs 개방)이 화자 인식 및 ASR 성능에 미치는 영향은 무엇인가?
  • RQ3화자 인식에서 작동 포인트별 보정 지표(C_llr)가 어떻게 비교되는가?
  • RQ4마이크로폰, 룸, 방해 요소 변동에 대한 시스템 강건성에 대해 VOiCES 데이터셋이 어떤 것을 보여줄 수 있는가?

주요 결과

  • 본 계획은 시스템 벤치마킹을 위해 고정 및 개방 학습 조건의 두 가지 과제(화자 인식 및 ASR)를 도입한다.
  • 화자 인식의 기본 지표로 NIST SRE와 유사한 C_det를 채택하고 보정 분석용 대안으로 llr 기반의 C_llr를 사용한다.
  • ASR 성능은 SCTK 채점을 사용한 단어 오류률(WER)로 평가되며 NIST OPENSAT-17 평가를 모방한다.
  • Phase 2 데이터는 다양한 잔향 환경에 걸쳐 310k개 이상의 오디오 파일로 VOiCES를 확장한다.
  • 참가자는 각 조건별로 표준화된 명명 및 CTM/LLR 형식의 시스템 출력물을 제출하고 컨퍼런스 발표를 위한 시스템 설명서를 제공해야 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.