Skip to main content
QUICK REVIEW

[論文レビュー] DNN and CNN with Weighted and Multi-task Loss Functions for Audio Event Detection

Huy Phan, Martin Krawczyk-Becker|arXiv (Cornell University)|Aug 10, 2017
Music and Audio Processing参考文献 18被引用数 31
ひとこと要約

本論文は、希少音声イベント検出におけるクラス不均衡と時間的構造モデリングに対処するために、重み付きおよびマルチタスク損失関数を用いたDNNおよびCNNベースの音声イベント検出システムを提案する。位相に配慮した信号強調処理とタスク固有の損失関数を統合することで、評価データ上でF1スコア88.3%、誤差率0.22を達成し、DCASE 2017ベースライン(64.1% F1、0.64誤差率)を著しく上回った。

ABSTRACT

This report presents our audio event detection system submitted for Task 2, "Detection of rare sound events", of DCASE 2017 challenge. The proposed system is based on convolutional neural networks (CNNs) and deep neural networks (DNNs) coupled with novel weighted and multi-task loss functions and state-of-the-art phase-aware signal enhancement. The loss functions are tailored for audio event detection in audio streams. The weighted loss is designed to tackle the common issue of imbalanced data in background/foreground classification while the multi-task loss enables the networks to simultaneously model the class distribution and the temporal structures of the target events for recognition. Our proposed systems significantly outperform the challenge baseline, improving F-score from 72.7% to 90.0% and reducing detection error rate from 0.53 to 0.18 on average on the development data. On the evaluation data, our submission obtains an average F1-score of 88.3% and an error rate of 0.22 which are significantly better than those obtained by the DCASE baseline (i.e. an F1-score of 64.1% and an error rate of 0.64).

研究の動機と目的

  • 希少なフォアグラウンドイベントと豊富なバックグラウンドフレームの間で生じるクラス不均衡を解消すること。
  • マルチタスク学習フレームワークを用いて、イベントクラス分布と時間的オンセット/オフセットを同時にモデリングすることで、認識性能を向上させること。
  • STFTドメインにおける最先端の位相に配慮した信号強調処理により、ノイズに対する耐性を高めること。
  • ベビーの泣き声、ガラスの割れる音、銃声の3つのイベントを同時に検出できる統合型マルチクラス検出システムを構築し、個別カテゴリの最適化を回避すること。
  • 開発データにおけるFスコアを最大化するために、しきい値とスムージングウィンドウのチューニングを通じて推論を最適化すること。

提案手法

  • ノイズがかかるSTFTのマグニチュード推定に基づき、クリアな位相を再構築することで、位相に配慮した信号強調処理を実施し、入力信号の品質を向上させる。
  • DNNおよびCNNモデルの両方の入力特徴として、ログガマトーンスペクトル係数を抽出し、ネットワークタイプに応じて最適化された前処理を実施する。
  • 2段階の検出パイプラインを採用:まず、バックグラウンドフレームを除外する2値分類器を実行し、次に、ベビーの泣き声、ガラスの割れる音、銃声の3クラスを区別するマルチクラス分類器を適用する。
  • フォアグラウンド/バックグラウンド分類におけるクラス不均衡に対処するため、誤って検出されなかったイベント(FN)に高いペナルティを課す重み付き損失関数を設計する。
  • 分類予測の交差エントロピーとオンセット/オフセット回帰のL2損失を組み合わせたマルチタスク損失を導入し、クラスと時間的構造の両方を同時にモデリング可能にする。
  • DNNは200エポック、CNNは5エポック学習し、Adam最適化アルゴリズムを用い、学習率1e-4で学習を実施。推論のしきい値とスムージングウィンドウはグリッドサーチによりチューニングした。

実験結果

リサーチクエスチョン

  • RQ1クラス不均衡なデータにおいて、誤って検出されなかったイベント(FN)の誤差を低減することで、重み付き損失関数が希少音声イベントの検出性能を向上させることができるか?
  • RQ2分類と時間的境界回帰を同時に最適化するマルチタスク損失は、一般化性能と検出精度を向上させるか?
  • RQ3人間が生成する(例:ベビーの泣き声)と非人間的(例:ガラスの割れる音、銃声)イベントの検出において、DNNとCNNの性能はどのように比較されるか?
  • RQ4位相に配慮した信号強調処理は、音声イベント検出におけるディープラーニングモデルの耐性をどの程度向上させるか?
  • RQ51つの統合型マルチクラスシステムは、カテゴリ別に最適化されたモデルを上回る性能を示せるか?

主な発見

  • 提案されたシステムは、DCASE 2017開発セットで平均F1スコア90.0%、検出誤差率0.18を達成した。これはベースライン(72.7% F1、0.53誤差率)に対して17.3ポイントの向上を示した。
  • 評価セットでは、F1スコア88.3%、誤差率0.22を達成し、DCASE 2017ベースライン(64.1% F1、0.64誤差率)を著しく上回った。
  • 人間が生成するベビーの泣き声イベントの検出において、CNNベースのシステムがDNNベースのシステムを上回った。これは、CNNが話者に依存しない特徴を学習できるためと推定される。
  • 非人間的イベント(ガラスの割れる音、銃声)の検出において、DNNベースのシステムがCNNを上回った。これは、畳み込み演算が時間周波数パターンに適さない場合、性能を劣化させる可能性があるためと推定される。
  • 最も優れた性能を示したシステムは、ベビーの泣き声にはCNN、ガラスの割れる音と銃声にはDNNを組み合わせたものであり、モデル選択がイベントタイプに依存することを示した。
  • イベント存在率が約0.5に近いスムージングウィンドウ長が、過学習を防ぎ、未学習データへの一般化性能を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。