Skip to main content
QUICK REVIEW

[論文レビュー] Sound Event Detection and Separation: a Benchmark on Desed Synthetic Soundscapes

Nicolas Turpault, Romain Serizel|arXiv (Cornell University)|Nov 2, 2020
Music and Audio Processing参考文献 30被引用数 30
ひとこと要約

本論文は、最先端の音響イベント検出(SED)システムをDESEDの合成サウンドスケープ上でベンチマークし、時刻定位、残響、非ターゲットイベントを分析し、前処理ステップとしてのサウンド分離の影響を評価する。

ABSTRACT

We propose a benchmark of state-of-the-art sound event detection systems (SED). We designed synthetic evaluation sets to focus on specific sound event detection challenges. We analyze the performance of the submissions to DCASE 2021 task 4 depending on time related modifications (time position of an event and length of clips) and we study the impact of non-target sound events and reverberation. We show that the localization in time of sound events is still a problem for SED systems. We also show that reverberation and non-target sound events are severely degrading the performance of the SED systems. In the latter case, sound separation seems like a promising solution.

研究の動機と目的

  • 弱くラベル付けされた訓練データを用いた実世界の多イベント環境に対して頑健なSEDを実現することを動機づける。
  • 合成DESEDサウンドスケープが、タイミング、オーバーラップ、残響といった特定のSEDの課題をどのように明らかにできるかを評価する。
  • 厳しい条件下でのSED性能に対する前処理ステップとしてのサウンド分離の影響を評価する。

提案手法

  • SEDの課題を分離するように設計された合成評価セットを用いる(タイミング、持続時間、オーバーラップ、残響)。
  • 合成評価セットと公式の実データ評価のDCASE 2020 Task 4への提出物をベンチマークする。
  • SSep前処理の有無にかかわらず、非ターゲットイベントと残響に対する堅牢性を分析する。
  • 評価には200 msの onset collar と柔軟な offset collar を用いたイベントベースのF値を採用する。

実験結果

リサーチクエスチョン

  • RQ1クリップ内の時刻定位はSED性能にどのような影響を与えるか。特に長いイベントの場合は?
  • RQ2残響と非ターゲットイベントがSED性能に与える影響は何か、SSepはこれらの影響を緩和できるか?
  • RQ3クリップの長さ(10秒対60秒)とイベント密度は検出の頑健性に影響を与えるか?
  • RQ4SSep前処理はベースラインSED性能を損なうことなく非ターゲットイベントに対する頑健性を改善できるか?
  • RQ5長時間イベントのシナリオにおける現在の評価指標(collar-based)の限界は何か?

主な発見

  • 残響はSED性能をF値で平均約15%低下させる。
  • 60 sのクリップを使用すると、合成リファレンス(ref)と比較して性能が低下し、いくつかのシステムでリコールの著しい低下が見られ、セグメンテーション/時系列定位の問題を示している。
  • クリップ内の時刻定位は短いイベントではわずかな影響しかないが、クリップの末尾近くでイベントが発生すると長いイベントで劣化し、窓処理/ポスト処理のバイアスを示唆している。
  • SSepを用いたシステムは非ターゲットイベントによる劣化を抑制する(TNTSNR条件全体でF-scoreがSSepあり約12.5%、なしで約19%)
  • SSepは非ターゲットイベントが存在しない場合には一貫した性能向上を示さない(TNTSNR_inf)。
  • 長いクリップ(60 s)は一般にSEDシステムにとってより難しく、主にリコールの低下と閾値適応の可能性による。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。