QUICK REVIEW

[論文レビュー] Improving Sound Event Detection In Domestic Environments Using Sound Separation

Nicolas Turpault, Scott Wisdom|arXiv (Cornell University)|Jul 8, 2020

Music and Audio Processing被引用数 28

ひとこと要約

本稿では、重複する音源やノイズの多い音声環境における音声イベント検出（SED）の性能向上を目的として、普遍的音声分離（SS）を前処理ステップとして用いる手法を提案する。異なる段階（早期、中間、後期）で分離された音声ソースをSEDシステムに統合することで、重複するイベントや低エネルギーイベントの検出性能が向上し、微調整されたSSモデルを用いた後期統合が最も優れた性能を示した（F1: 39.2%，PSDS: 0.574）。

ABSTRACT

Performing sound event detection on real-world recordings often implies dealing with overlapping target sound events and non-target sounds, also referred to as interference or noise. Until now these problems were mainly tackled at the classifier level. We propose to use sound separation as a pre-processing for sound event detection. In this paper we start from a sound separation model trained on the Free Universal Sound Separation dataset and the DCASE 2020 task 4 sound event detection baseline. We explore different methods to combine separated sound sources and the original mixture within the sound event detection. Furthermore, we investigate the impact of adapting the sound separation model to the sound event detection data on both the sound separation and the sound event detection.

研究の動機と目的

実世界のSEDにおいて、重複する音声イベントや非ターゲット音声イベントが検出性能を低下させるという課題に対処すること。
分類の前にターゲットイベントを分離することで、音声分離がSEDの性能向上に寄与するかを調査すること。
一般化性能を向上させるために、汎用音声分離モデルをSED固有のデータに適応させた影響を検討すること。
SEDパイプラインにおける混合音声と分離音声の統合戦略（早期、中間、後期）を比較すること。
学習可能な統合重みを用いて、分離音声と元の混合音声を組み合わせる有効性を評価すること。

提案手法

合成データと実データを混合したSED固有のデータを用いて、Free Universal Sound Separation（FUSS）データセットで事前学習された普遍的音声分離（USS）モデルを微調整する。
入力混合音声に音声分離を適用し、個々の音声ソースを表す複数の分離音声トラックを生成する。
混合音声と分離音声を、3つの戦略（早期：入力チャネルとして連結、中間：CNN特徴抽出後に連結、後期：予測値を学習可能な重みで統合）を用いてSEDパイプラインに統合する。
Mean-teacher SEDモデルをベースラインとし、推論時に学生モデルを用い、教師モデルが一貫性正則化を提供する。
活性なソースのみが非ゼロとなるように促進するように変更された損失関数を用いてSSモデルを学習させ、可変数のソース分離を可能にする。
検証セットを用いて、混合音声と分離音声の寄与をバランスさせるために、後期統合重み（pおよびq）を最適化する。

実験結果

リサーチクエスチョン

RQ1重複する音声や非ターゲット音声が混在する複雑な家庭環境におけるSED性能を、音声分離を前処理として用いることで向上させられるか？
RQ2SED固有のデータに汎用SSモデルを微調整することで、分離品質とその後のSED性能にどのような影響が生じるか？
RQ3混合音声と分離音声を統合する際、早期、中間、後期のどの統合戦略がSED性能を最も向上させるか？
RQ4後期統合における学習可能な統合重み（pおよびq）が、異なるSSモデルのSED性能に与える影響は何か？
RQ5SSの学習条件（例：合成データ対実データ）の不一致が、SEDシステムの一般化性能と有効性に与える影響は何か？

主な発見

最良のSED性能は、乾燥したFUSSで学習されたSSモデルを用いた後期統合で達成され、REC_VALセットにおいてF1スコア39.2%、PSDS 0.574を記録した。
DESED+FUSSデータにSSモデルを微調整したが、マッチしたデータではより良いSSスコアを達成したものの、一般化性能は汎用FUSSモデルに劣った。
最適な重み（p=2, q=2）を用いた後期統合が、早期および中間統合を上回り、特にFUSSで学習されたSSモデルにおいて顕著に優れた性能を示した。
混合音声または分離音声にのみ重みを割り当てる高値の融合重みqは性能を低下させたことから、バランスの取れた統合が重要であることが示された。
p（ソース集約重み）の影響はモデルによって異なり、ターゲットイベントとソースが一致する場合（例：PITモデル）には高値のpが有益であったが、分離が不一致する場合にはそれほど効果がなかった。
REC_VALでのSSスコアは低かったが、実世界データへの一般化性能が優れていたFUSSで学習されたSSモデルは、タスク固有のSSモデルよりも優れたSED性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。