Skip to main content
QUICK REVIEW

[論文レビュー] Cross-task learning for audio tagging, sound event detection and spatial localization: DCASE 2019 baseline systems

Qiuqiang Kong, Yin Cao|arXiv (Cornell University)|Apr 6, 2019
Music and Audio Processing参考文献 21被引用数 36
ひとこと要約

論文はDCASE 2019の全タスクに対してクロストタスクCNNベースライン(5層・9層・13層)を提案し、9層CNNと平均プーリングが多くのタスクで最良の性能を示すことを発見、ベースラインコードを公開する。

ABSTRACT

The Detection and Classification of Acoustic Scenes and Events (DCASE) 2019 challenge focuses on audio tagging, sound event detection and spatial localisation. DCASE 2019 consists of five tasks: 1) acoustic scene classification, 2) audio tagging with noisy labels and minimal supervision, 3) sound event localisation and detection, 4) sound event detection in domestic environments, and 5) urban sound tagging. In this paper, we propose generic cross-task baseline systems based on convolutional neural networks (CNNs). The motivation is to investigate the performance of a variety of models across several audio recognition tasks without exploiting the specific characteristics of the tasks. We looked at CNNs with 5, 9, and 13 layers, and found that the optimal architecture is task-dependent. For the systems we considered, we found that the 9-layer CNN with average pooling after convolutional layers is a good model for a majority of the DCASE 2019 tasks.

研究の動機と目的

  • 複数のDCASE 2019タスク全体で、タスク固有デザインよりも汎用CNNベースラインのクロス-task評価を動機づける。
  • タスク間でCNNアーキテクチャ(5、9、13層)とプーリング戦略を体系的に比較する。
  • 将来のクロス-task研究を支援するため、ベースライン実装とオープンソースコードを提供する。

提案手法

  • 畳み込みブロックの後に平均プーリングまたは最大プーリングを用いた3つのCNN深さ(5、9、13層)を調査する。
  • バッチ正規化とReLU活性化を用いたログメルスペクトログラム入力を使用。
  • 分類にはクロスエントロピー、タグ付け/SEDにはバイナリクロスエントロピー、SELDには局在化項を含む結合損失を適用。
  • 局在化のため、損失にバランスパラメータlambdaを用いてSEDとDOA推定を共同訓練。
  • 畳み込みブロック後の平均プーリングと最終層での周波数平均化により周波数シフトに対する頑健性を向上させる。
  • 提供されたデータセットと設定を用いて5つのDCASE 2019タスクで訓練・評価を行い、GitHubにソースコードを公開する。

実験結果

リサーチクエスチョン

  • RQ1タスク固有のベースラインと比較して、5つのDCASE 2019タスク全体でクロス-task CNNアーキテクチャはどのように性能を示すか?
  • RQ2ネットワーク深度(5、9、13層)の性能への影響はタスク間でどうなるか?
  • RQ3ほとんどのタスクでクロス-task設定において平均プーリングと最大プーリングのどちらがより良い結果をもたらすか?
  • RQ4単一の汎用CNNアーキテクチャは、音声タグ付け、SED、局所化といった多様なタスクのベースラインとして効果的に機能するか?

主な発見

  • 平均プーリングを用いた9層CNN(CNN9-avg)はしばしばタスク全体で高い性能を示し、いくつかのサブタスクで他の深さを上回る。
  • 最適なアーキテクチャはタスク依存であり、いくつかのタスクでは5層CNNが深いモデルを上回る。
  • 調査した5タスクのうち4タスクで平均プーリングが最大プーリングより優れている傾向。
  • CNNベースラインは弱いラベルやノイズの多いラベルで訓練しても競争力のある結果を示し、クロス-task学習が堅牢な汎化を提供。
  • 著者らは今後の研究と比較を促進するため、クロス-taskベースラインコードを公開する。
  • タスク1–5を通じて、9層構成はしばしば5層または13層の変種よりも精度と汎化のバランスが良い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。