Skip to main content
QUICK REVIEW

[論文レビュー] Acoustic scene classification in DCASE 2020 Challenge: generalization across devices and low complexity solutions

Toni Heittola, Annamaria Mesaros|arXiv (Cornell University)|May 29, 2020
Music and Audio Processing参考文献 18被引用数 40
ひとこと要約

本論文は DCASE 2020 Task 1 を2つのサブタスクで分析する:音響シーン分類のための機器間一般化と低複雑度モデル、データセット、ベースライン、トップシステムを報告。

ABSTRACT

This paper presents the details of Task 1: Acoustic Scene Classification in the DCASE 2020 Challenge. The task consists of two subtasks: classification of data from multiple devices, requiring good generalization properties, and classification using low-complexity solutions. Here we describe the datasets and baseline systems. After the challenge submission deadline, challenge results and analysis of the submissions will be added.

研究の動機と目的

  • 見たことのないデバイスを含む複数デバイス間での ASC モデルの一般化を検討する。
  • 厳格なサイズ制限の中で低複雑度の ASC モデルを開発・評価する。
  • データ拡張と量子化/プルーニング戦略を主要技術として分析・比較する。

提案手法

  • Subtask A のために実機とシミュレートされたデバイスを用いた TAU Urban Acoustic Scenes 2020 Mobile データセットを導入する。
  • Subtask A のベースラインとして CNN/MLP を用いた Open L3 埋め込みを使用する。
  • Subtask B に対して 500 KB のモデルサイズ制限を課し、スリムなモデル、プルーニング、量子化を検討する。
  • マクロ平均精度と多クラス交差エントロピー(対数損失)で提出物を評価する。
  • 上位システムとデータ拡張や事後量子化などの共通手法を報告する。

実験結果

リサーチクエスチョン

  • RQ1見たことのないデバイスを含む多数のデバイスに対して ASC モデルがどの程度一般化できるか?
  • RQ2厳格なサイズ制限を満たしつつ高精度を維持するには、どのような低複雑度モデル手法が有効か?
  • RQ3デバイス不一致とリソース制限に最も効果的に対処するデータ拡張と量子化戦略はどれか?

主な発見

System # Accuracy Log loss Size Param Weights Notes
Koutini_CPJKU_2196.5 %0.10483.5 KB345kfloat16pruning, post-training quantization
Hu_GT_3396.0 %0.12490.0 KB122kint8post-training quantization
McDonnell_USA_3495.9 %0.11486.7 KB3M1-bit
Suh_ETRI_31195.1 %0.27413.0 KB207kfloat16sparse connectivity models, ensemble
Chang_QTI_11295.0 %0.22491.2 KB601kfloat16pruning, weight sharing across layers
Wu_CUHK_41494.9 %0.21299.3 KB153kfloat16depth-wise separable CNN
Lee_CAU_22393.9 %0.15494.2 KB126kfloat32slim model
Naranjo-Alcazar_Vfy_12493.6 %0.20496.3 KB127kfloat32slim model
Kwiatkowska_SRPOL_22793.5 %0.16421.0 KB107kfloat32depth-wise separable CNN, ensemble
Yang_UESTC_32693.5 %0.22258.0 KB119kfloat16slim model
Baseline-89.5 %0.40450.1 KB115kfloat32slim model
  • Subtask A は評価セットで最大 76.5% の精度を達成。ベースラインは 51.4%。
  • Subtask B は 500 KB のモデルサイズ制限下で最大 96.5% の精度(ベースライン 89.5%)に達した。
  • データ拡張は Subtask A のデバイス一般化における主要技術だった。
  • 事後量子化や他のモデル圧縮技術により、多くの提出物が Subtask B の制限を満たした。
  • いくつかの上位システムは、ResNet 系や注意機構を取り入れた CNN ベースのアンサンブルである。
  • Unseen デバイスは精度に大きな挑戦をもたらすが、多くの解法は既知デバイス/未知デバイス間で強い一般化を維持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。