QUICK REVIEW

[論文レビュー] A Dataset of Reverberant Spatial Sound Scenes with Moving Sources for Sound Event Localization and Detection

Archontis Politis, Sharath Adavanne|arXiv (Cornell University)|Jun 2, 2020

Music and Audio Processing参考文献 29被引用数 43

ひとこと要約

DCASE 2020 SELDデータセットを、複数の部屋で残響と動くソースを含む形で紹介し、CRNNベースライン（SELDnet）とジョイントSEL D評価指標を追加します。堅牢なベンチマークのためにMICとFOA形式を提供します。

ABSTRACT

This report presents the dataset and the evaluation setup of the Sound Event Localization & Detection (SELD) task for the DCASE 2020 Challenge. The SELD task refers to the problem of trying to simultaneously classify a known set of sound event classes, detect their temporal activations, and estimate their spatial directions or locations while they are active. To train and test SELD systems, datasets of diverse sound events occurring under realistic acoustic conditions are needed. Compared to the previous challenge, a significantly more complex dataset was created for DCASE 2020. The two key differences are a more diverse range of acoustical conditions, and dynamic conditions, i.e. moving sources. The spatial sound scenes are created using real room impulse responses captured in a continuous manner with a slowly moving excitation source. Both static and moving sound events are synthesized from them. Ambient noise recorded on location is added to complete the generation of scene recordings. A baseline SELD method accompanies the dataset, based on a convolutional recurrent neural network, to provide benchmark scores for the task. The baseline is an updated version of the one used in the previous challenge, with input features and training modifications to improve its performance.

研究の動機と目的

多様な残響条件下で静的および動くソースの両方を含む現実的なSELDデータセットの必要性を喚起する。
SELDシステムに挑戦するため、動くソースを含む残響音景の大規模で多様なデータセットを作成する。
公正な手法比較のために、補完的なデータ形式としてMICとFOAの2つを提供し、固定の評価設定を整える。
将来の研究を導くために、ベースラインSELDnetとジョイントSELD性能指標を提供する。

提案手法

13部屋の実測RIRを用いて、動く音源と静的音イベントを畳み込みスペース混成として合成する。
動く音源には疑似乱数MLS軌道を用いて、連続的な空間変動を捉える。
現実感を高めるため、さまざまなSNRで部屋の環境ノイズを混合する。
MIC（4チャネルのテトラヘッド）とFOA（ファーストオーダー・アンビソニクス）形式でデータを提供し、形式依存の特徴を研究する。
Seldnetベースラインをアレイ依存特徴とマスクDOA損失を用いたSED+DOAのジョイント学習目的で適用する。
従来の2019指標（DE, FR, ER, F）に加えて、ジョイントSEL D指標（LE_CD, LR_CD, ER_20°, F_20°）で評価する。

実験結果

リサーチクエスチョン

RQ1SELDシステムは、残響環境で動く音源を検出・分類・定位できる程度はどの程度か。
RQ2動くソースと多様な音響条件は、静的データセットと比較してSELDの性能に顕著な影響を与えるか。
RQ3SELD研究と特徴設計のためにMICとFOA形式を提供する利点は何か。
RQ4実務上の性能評価において、ジョイントSELD指標は独立したSEDおよびDOA指標とどのように比較されるか。

主な発見

データセット形式 / 指標	DE	FR	ER	F	LE_CD	LR_CD	ER_20°	F_20°
FOA Development (2019 metrics)	20.2	62.9	0.54	62	-	-	-	-
FOA Test (2019 metrics)	20.4	66.6	0.54	60.9	-	-	-	-
MIC Development (2019 metrics)	21.9	63.8	0.53	62.8	-	-	-	-
MIC Test (2019 metrics)	22.6	66.8	0.56	59.2	-	-	-	-
FOA Val (2020 joint metrics)	-	-	-	-	23.5	62.0	0.72	37.7
FOA Test (2020 joint metrics)	-	-	-	-	22.8	60.7	0.72	37.4
MIC Val (2020 joint metrics)	-	-	-	-	27.0	62.6	0.74	34.2
MIC Test (2020 joint metrics)	-	-	-	-	27.3	59.0	0.78	31.4

新しいデータセットで、ベースラインSELDnetはジョイント検出と定位を実証可能に達成するが、形式と部屋ごとに性能が異なる。
同じ録音データに対して、FOA形式はMICよりも一般にSELD性能が良い。
ポリフォニー（重なり）で性能が低下し、未見の空間で部屋依存の一般化の問題を示す。
ジョイント指標（LE_CD, LR_CD, ER_20°, F_20°）は、2019年の別指標を超えた補完的な洞察を示し、ジョイント検出/定位の評価の利点を際立たせる。
動くソース、さまざまな残響、現実的な環境ノイズに起因する顕著な課題をデータセットが示しており、SELD手法の進展を促している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。