Skip to main content
QUICK REVIEW

[論文レビュー] Multi-level Attention Model for Weakly Supervised Audio Classification

Changsong Yu, Karim Said Barsim|arXiv (Cornell University)|Mar 6, 2018
Music and Audio Processing参考文献 22被引用数 63
ひとこと要約

この論文は単一レベルの注意モデルを拡張し、中間層で複数の注意モジュールを適用するマルチレベル注意フレームワークを提案する。これにより以前の手法より Audio Set で平均適合率 (mAP) が向上した。

ABSTRACT

In this paper, we propose a multi-level attention model to solve the weakly labelled audio classification problem. The objective of audio classification is to predict the presence or absence of audio events in an audio clip. Recently, Google published a large scale weakly labelled dataset called Audio Set, where each audio clip contains only the presence or absence of the audio events, without the onset and offset time of the audio events. Our multi-level attention model is an extension to the previously proposed single-level attention model. It consists of several attention modules applied on intermediate neural network layers. The output of these attention modules are concatenated to a vector followed by a multi-label classifier to make the final prediction of each class. Experiments shown that our model achieves a mean average precision (mAP) of 0.360, outperforms the state-of-the-art single-level attention model of 0.327 and Google baseline of 0.314.

研究の動機と目的

  • クリップごとにイベントの出現/非出現のみが知られている弱教師付き音声分類に対処する。
  • 中間ニューラルネット層からのマルチレベル表現を活用してイベント検出を改善する。
  • マルチレベルの注意機構で得られた特徴を連結することで Audio Set で優れた性能を示す。

提案手法

  • ニューラルネットワークの複数の中間層の後に注意モジュールを適用する。
  • 各注意モジュールからの予測を y^(l) として計算し、それらを単一ベクトル u に連結する。
  • 最終的な全結合層をシグモイド活性化で用いてクラス確率を生成する。
  • ドロップアウトとバッチ正規化を用いて Adam 最適化手法で学習する。
  • 単一レベルとマルチレベルのアーキテクチャを含む9つのバリアントを比較する。
  • Audio Set で mAP、AUC、d-prime を用いて評価する。

実験結果

リサーチクエスチョン

  • RQ1複数のネットワークレベルで注意機構を組み込むことは、Audio Set における弱教師付き音声分類の性能を向上させるか?
  • RQ2パフォーマンスと複雑さのトレードオフの点で、どのマルチレベル注意の構成が最適か?
  • RQ3主要指標 (mAP、AUC、d-prime) において、マルチレベル特徴と単一レベルの注意および Google ベースラインをどう比較するか?

主な発見

  • マルチレベル注意モデルは mAP、AUC、d-prime の全てで Google ベースラインと単一レベル注意モデルを上回る。
  • 最良のアーキテクチャ (2-A-1-A) は mAP 0.360 を達成し、ベースライン 0.314 および先行研究 0.327 に対して優る。
  • マルチレベル特徴を連結することで表現がより豊かになり、各クラスが異なる層表現の恩恵を受けられる。
  • パフォーマンスの向上はすべてのクラスで均一ではなく、いくつかのクラスは異なるアーキテクチャを好む。
  • 全体として、マルチレベル特徴の連結は大半のクラスで性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。