QUICK REVIEW

[論文レビュー] MUSAN: A Music, Speech, and Noise Corpus

David Snyder, Guoguo Chen|arXiv (Cornell University)|Oct 28, 2015

Speech Recognition and Synthesis参考文献 5被引用数 922

ひとこと要約

この論文では、公開ドメインおよびクリエイティブ・コモンズのソースから得た109時間にのぼる音楽、会話、ノイズの自由に再配布可能な音声コーパス、MUSANを紹介している。このコーパスは、音声活動検出（VAD）および音楽／会話識別システムの学習を目的として設計されている。GMMベースのモデルを用いてコーパスを処理したところ、特にVAD分野で優れた性能を示した。GMM＋エネルギーのハイブリッド手法により、リソースが限られた条件下で話者認識のEERが最大23.16%まで改善された。

ABSTRACT

This report introduces a new corpus of music, speech, and noise. This dataset is suitable for training models for voice activity detection (VAD) and music/speech discrimination. Our corpus is released under a flexible Creative Commons license. The dataset consists of music from several genres, speech from twelve languages, and a wide assortment of technical and non-technical noises. We demonstrate use of this corpus for music/speech discrimination on Broadcast news and VAD for speaker identification.

研究の動機と目的

音声活動検出（VAD）および音楽／会話識別システムの学習を目的とした、公開可能で法的に再配布可能な音声コーパスの作成。
特に商業利用を想定した明確なライセンスを有する、音楽および会話用の法的に再配布可能な生の音声データセットの不足を解消すること。
多言語・マルチジャンルの音声、音楽、環境ノイズをカバーする多様なデータセットを提供し、音声処理アプリケーションにおける耐障害性を向上させること。
標準ベンチマーク（Broadcast NewsおよびNIST SRE 2010など）を用いたGMMベースのモデルによるベースライン実験を通じて、コーパスの実用性を示すこと。
限られた話者発話量におけるVAD品質が、下流の話者認識性能に与える影響を評価すること。

提案手法

コーパスは、米国公共ドメインおよびクリエイティブ・コモンズライセンスのソースから収集されたもので、Librivox（読み上げ会話）、Jamendo、Free Music Archive、Incompetech、HD Classical Music（音楽）、Free SoundおよびSound Bible（ノイズ）を含む。
音声は16kHzのモノラルWAV形式で保存され、各音声セグメントのメタデータおよびライセンス情報は、LICENSEおよびANNOTATIONSファイルに格納されている。
音楽／会話識別のため、20次元のMFCCに加え、デルタおよび加速度特徴を用い、4～128成分のGMMを学習し、Broadcast Newsデータ上で等誤り率（EER）で評価した。
VADのため、音声、音楽、ノイズのサブセットで学習したGMMベースのVADとエネルギーベースのVADをハイブリッド化し、外部データでチューニングされた事前確率を用いた。
話者認識実験では、i-vectorシステムにGMMユニバーサルバックグラウンドモデル（UBM）とPLDAバックエンドを組み合わせ、VADの判断を用いて無声フレームをフィルタリングした。
性能評価はNIST SRE 2010コアセットを用い、テスト発話は1～60秒に切り詰めてリアルタイム処理制約を模擬した。

実験結果

リサーチクエスチョン

RQ1公開ドメインおよびクリエイティブ・コモンズのソースから、大規模で法的に再配布可能な音楽、会話、ノイズの音声コーパスを構築できるか？
RQ2MUSANで学習したモデルと、広く使われているが再配布不可なGTZANデータセットで学習したモデルとを比較した場合、音楽／会話識別性能に差は生じるか？
RQ3MUSANで学習したGMMベースのVADは、話者発話量が限られた状況下で、話者認識性能にどの程度向上効果をもたらすか？
RQ4多様なノイズタイプおよび英語以外の話者データの組み込みが、VADおよび識別システムの耐障害性に寄与するか？
RQ5リソースが限られた話者認識シナリオにおいて、GMM＋エネルギーのハイブリッドVADは、エネルギーのみのベースラインVADに比べてどの程度優れているか？

主な発見

MUSANコーパスには、合計109時間の音声が含まれており、うち60時間はLibrivoxおよび米国政府記録の会話、42.5時間は複数のジャンルとソースからの音楽、6時間は多様なノイズサンプルである。
MUSANで学習したGMMベースの音楽／会話識別は、16成分で3.75%のEERを達成し、GTZANデータセットで学習したモデルの3.85%のEERと同等の性能を示した。
GMMベースのVADの追加により、話者発話が1秒しかない状況でも、ベースラインのエネルギーVADと比較して話者認識のEERが最大23.16%まで低下した。
GMM＋エネルギーVADは、全テスト期間においてエネルギーのみのVADを上回り、特に1秒の発話量で23.16%の相対的改善が観察された。
コーパスは柔軟なクリエイティブ・コモンズライセンスのもとで完全に再配布可能であり、すべての音声ファイルが適切にクレジットおよびライセンス表示されているため、商業利用が可能である。
結果から、MUSANは耐障害性のあるVADおよび音楽／会話識別システムの学習に適した、法的にも安全な代替データセットであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。