QUICK REVIEW

[論文レビュー] General-purpose Tagging of Freesound Audio with AudioSet Labels: Task Description, Dataset, and Baseline

Eduardo Fonseca, Manoj Plakal|arXiv (Cornell University)|Jul 26, 2018

Music and Audio Processing参考文献 7被引用数 100

ひとこと要約

この論文は Freesound の音声タグ付けにおける DCASE 2018 Task 2 を AudioSet ラベルとともに説明し、FSDKaggle2018 データセットを導入し、3層 CNN を用いたベースラインで mAP@3 が 0.70 を達成している。

ABSTRACT

This paper describes Task 2 of the DCASE 2018 Challenge, titled "General-purpose audio tagging of Freesound content with AudioSet labels". This task was hosted on the Kaggle platform as "Freesound General-Purpose Audio Tagging Challenge". The goal of the task is to build an audio tagging system that can recognize the category of an audio clip from a subset of 41 diverse categories drawn from the AudioSet Ontology. We present the task, the dataset prepared for the competition, and a baseline system.

研究の動機と目的

ユーザー生成コンテンツである Freesound を用いた広範な音声タグ付けの動機づけ。
41 の AudioSet カテゴリと混在したアノテーション信頼性を持つデータセット（FSDKaggle2018）を作成する。
現実的で多様かつややノイズのあるデータセット上でベースラインのタグ付け手法を評価する。

提案手法

Freesound のタグを AudioSet のカテゴリに結びつけるデータ収集とアノテーションプロセスを説明する。
手動検証済みおよび非検証アノテーションと QE ベースのフィルタリングを用いて FSDKaggle2018 を構築する。
約18時間の音声と11kクリップを41カテゴリにまたがって、訓練/テストデータに分割する。
3 層の畳み込み層と 41 チャネルのソフトマックス出力を持つ log-mel スペクトログラム入力上で動作するベースライン CNN モデルを提案する。
0.25 s の窓、0.125 s のホップで音声を処理し、窓レベルの予測を平均してクリップレベルの出力とする。

実験結果

リサーチクエスチョン

RQ1一般用途の音声タグ付けモデルは、さまざまな実世界の Freesound クリップを 41 の AudioSet カテゴリに正しく分類できるか？
RQ2アノテーションの信頼性（手動検証済み vs 非検証）は、モデルの訓練と評価にどのように影響するか？
RQ3標準的な CNN アーキテクチャを用いた場合、FSDKaggle2018 で達成可能なベースライン性能（mAP@3）はどれ程度か？
RQ4データセット設計の選択（クリップ長、バランス、およびリーフ/親カテゴリの集約）が結果に与える影響は？

主な発見

名前	クリップ	時間	AP@3
Acoustic guitar	300	52	0.67
Applause	300	58	0.98
Bark	239	45	0.85
Bass drum	300	13	0.55
Burping, eructation	210	12	0.71
Bus	109	28	0.53
Cello	300	37	0.86
Chime	115	24	0.79
Clarinet	300	35	0.96
Computer keyboard	119	23	0.54
Cough	243	22	0.69
Cowbell	191	11	0.58
Double bass	300	17	0.69
Drawer open, close	158	18	0.05
Electric piano	150	25	0.75
Fart	300	18	0.65
Glockenspiel	94	8	0.59
Gunshot, gunfire	147	11	0.16
Harmonica	165	19	0.86
Hi-hat	300	19	0.53
Knock	279	19	0.89
Laughter	300	36	0.96
Meow	155	19	0.82
Oboe	299	15	0.88
Olive	-	-	-
Saxophone	300	34	0.84
Snare drum	300	18	0.30
Trumpet	300	28	0.84
Violin, fiddle	300	27	0.73
Writing	270	48	0.66
Meow (duplicate)	155	19	0.82
Meow (duplicate)	155	19	0.82
Tambourine	221	10	0.78
Tearing	300	39	0.94
Flute	300	46	0.90
Gong	292	42	0.81
Shatter	300	26	0.70
Squeak	300	38	0.16
Telephone	120	16	0.65

ベースライン CNN はテスト全体で mAP@3 が 0.70 を達成（公開 0.70、Kaggle 分割の私的 0.69）。
FSDKaggle2018 には 41 カテゴリにまたがる 11,073 の音声クリップ、訓練とテストの分割、総計約 18 時間の音声が含まれる。
手動検証済みアノテーションは Present and Predominant (PP) です。非検証アノテーションは QE ≥ 65% を持ち、ノイズがある可能性があります。
データ漏洩を防ぎ、評価を公平にするためテストセットにはパディングクリップを含めています。
Table 2 に 41カテゴリすべてについて per-category AP@3 の値が報告されており、カテゴリごとのばらつきを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。