Skip to main content
QUICK REVIEW

[論文レビュー] General-purpose Tagging of Freesound Audio with AudioSet Labels: Task Description, Dataset, and Baseline

Eduardo Fonseca, Manoj Plakal|arXiv (Cornell University)|Jul 26, 2018
Music and Audio Processing参考文献 7被引用数 100
ひとこと要約

この論文は Freesound の音声タグ付けにおける DCASE 2018 Task 2 を AudioSet ラベルとともに説明し、FSDKaggle2018 データセットを導入し、3層 CNN を用いたベースラインで mAP@3 が 0.70 を達成している。

ABSTRACT

This paper describes Task 2 of the DCASE 2018 Challenge, titled "General-purpose audio tagging of Freesound content with AudioSet labels". This task was hosted on the Kaggle platform as "Freesound General-Purpose Audio Tagging Challenge". The goal of the task is to build an audio tagging system that can recognize the category of an audio clip from a subset of 41 diverse categories drawn from the AudioSet Ontology. We present the task, the dataset prepared for the competition, and a baseline system.

研究の動機と目的

  • ユーザー生成コンテンツである Freesound を用いた広範な音声タグ付けの動機づけ。
  • 41 の AudioSet カテゴリと混在したアノテーション信頼性を持つデータセット(FSDKaggle2018)を作成する。
  • 現実的で多様かつややノイズのあるデータセット上でベースラインのタグ付け手法を評価する。

提案手法

  • Freesound のタグを AudioSet のカテゴリに結びつけるデータ収集とアノテーションプロセスを説明する。
  • 手動検証済みおよび非検証アノテーションと QE ベースのフィルタリングを用いて FSDKaggle2018 を構築する。
  • 約18時間の音声と11kクリップを41カテゴリにまたがって、訓練/テストデータに分割する。
  • 3 層の畳み込み層と 41 チャネルのソフトマックス出力を持つ log-mel スペクトログラム入力上で動作するベースライン CNN モデルを提案する。
  • 0.25 s の窓、0.125 s のホップで音声を処理し、窓レベルの予測を平均してクリップレベルの出力とする。

実験結果

リサーチクエスチョン

  • RQ1一般用途の音声タグ付けモデルは、さまざまな実世界の Freesound クリップを 41 の AudioSet カテゴリに正しく分類できるか?
  • RQ2アノテーションの信頼性(手動検証済み vs 非検証)は、モデルの訓練と評価にどのように影響するか?
  • RQ3標準的な CNN アーキテクチャを用いた場合、FSDKaggle2018 で達成可能なベースライン性能(mAP@3)はどれ程度か?
  • RQ4データセット設計の選択(クリップ長、バランス、およびリーフ/親カテゴリの集約)が結果に与える影響は?

主な発見

名前クリップ時間AP@3
Acoustic guitar300520.67
Applause300580.98
Bark239450.85
Bass drum300130.55
Burping, eructation210120.71
Bus109280.53
Cello300370.86
Chime115240.79
Clarinet300350.96
Computer keyboard119230.54
Cough243220.69
Cowbell191110.58
Double bass300170.69
Drawer open, close158180.05
Electric piano150250.75
Fart300180.65
Glockenspiel9480.59
Gunshot, gunfire147110.16
Harmonica165190.86
Hi-hat300190.53
Knock279190.89
Laughter300360.96
Meow155190.82
Oboe299150.88
Olive---
Saxophone300340.84
Snare drum300180.30
Trumpet300280.84
Violin, fiddle300270.73
Writing270480.66
Meow (duplicate)155190.82
Meow (duplicate)155190.82
Tambourine221100.78
Tearing300390.94
Flute300460.90
Gong292420.81
Shatter300260.70
Squeak300380.16
Telephone120160.65
  • ベースライン CNN はテスト全体で mAP@3 が 0.70 を達成(公開 0.70、Kaggle 分割の私的 0.69)。
  • FSDKaggle2018 には 41 カテゴリにまたがる 11,073 の音声クリップ、訓練とテストの分割、総計約 18 時間の音声が含まれる。
  • 手動検証済みアノテーションは Present and Predominant (PP) です。非検証アノテーションは QE ≥ 65% を持ち、ノイズがある可能性があります。
  • データ漏洩を防ぎ、評価を公平にするためテストセットにはパディングクリップを含めています。
  • Table 2 に 41カテゴリすべてについて per-category AP@3 の値が報告されており、カテゴリごとのばらつきを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。