QUICK REVIEW

[論文レビュー] Rethinking CNN Models for Audio Classification

Kamalesh Palanisamy, Dipika Singhania|arXiv (Cornell University)|Jul 22, 2020

Music and Audio Processing参考文献 62被引用数 108

ひとこと要約

この論文は ImageNet-pretrained CNNs が Mel-spectrograms でファインチューニングされ、ESC-50 と UrbanSound8K で最先端の結果を達成し、GTZAN でも競争力があり、アンサンブルによって頑健性が向上する。

ABSTRACT

In this paper, we show that ImageNet-Pretrained standard deep CNN models can be used as strong baseline networks for audio classification. Even though there is a significant difference between audio Spectrogram and standard ImageNet image samples, transfer learning assumptions still hold firmly. To understand what enables the ImageNet pretrained models to learn useful audio representations, we systematically study how much of pretrained weights is useful for learning spectrograms. We show (1) that for a given standard model using pretrained weights is better than using randomly initialized weights (2) qualitative results of what the CNNs learn from the spectrograms by visualizing the gradients. Besides, we show that even though we use the pretrained model weights for initialization, there is variance in performance in various output runs of the same model. This variance in performance is due to the random initialization of linear classification layer and random mini-batch orderings in multiple runs. This brings significant diversity to build stronger ensemble models with an overall improvement in accuracy. An ensemble of ImageNet pretrained DenseNet achieves 92.89% validation accuracy on the ESC-50 dataset and 87.42% validation accuracy on the UrbanSound8K dataset which is the current state-of-the-art on both of these datasets.

研究の動機と目的

ImageNet-pretrained CNNs が mel-spectrogram 入力を用いた音声分類の強力なベースラインになり得ることを示す。
複数データセットで事前学習重みとランダム初期化の利点を定量化する。
ファインチューニング中に事前学習重みがどのように変化するかを分析し、音声タスクで重要なネットワークの部分を特定する。
勾配ベースの可視化を通じて、CNNs がスペクトログラムから何を学習するかに関する定性的洞察を提供する。
深いアンサンブルがデータセットを跨いで精度と頑健性を高めることを示す。

提案手法

ImageNet-pretrained DenseNet-201、ResNet、Inception モデルを音声データセットから導出した Mel-spectrogram 入力にファインチューニングして使用する。
Mel-spectrogram を 3 チャンネル入力へ変換する（単一スペクトログラムを再現するか、マルチウィンドウ・チャンネル方式）、および標準的なデータ拡張を適用する（時間伸長、ピッチシフト）。
ESC-50、UrbanSound8K、GTZAN でハイパーパラメータを調整してモデルを訓練する（Adam、lr=1e-4、weight decay 1e-3）。
単一モデルとアンサンブル（M=5）を評価し、softmax 出力の平均化によってアンサンブルの性能向上を測定する。
転移学習分析を実施する：ウェイトの変化、部分的ウェイトの融合/凍結、事前学習知識が最も役立つ箇所を特定する。

実験結果

リサーチクエスチョン

RQ1Mel-spectrogram をファインチューニングした ImageNet-pretrained CNNs は、共通の音声分類データセットでゼロからの学習より優れているか？
RQ2ファインチューニング後にどの部分が有用な音声表現を保持しており、凍結や部分的なウェイト移動は性能にどう影響するか？
RQ3単純な Mel-spectrogram 入力と標準的な CNN バックボーンで ImageNet からの転移学習を用いて ESC-50 および UrbanSound8K で最先端の結果を達成できるか？
RQ4複数のファインチューニング済み事前学習モデルをアンサンブルするとデータセットを跨いで頑健な向上を得られるか？
RQ5勾配ベースの可視化から、CNN がスペクトログラム入力をどう解釈するかは何を示しているか？

主な発見

モデル	GTZAN (Pretrained)	GTZAN (Random)	ESC-50 (Pretrained)	ESC-50 (Random)	UrbanSound8K (Pretrained)	UrbanSound8K (Random)
DenseNet	91.39% ±0.37	88.50%	91.16% ±0.36	92.89%	85.14% ±0.17	87.42%
ResNet	91.09% ±0.86	87.90%	90.65% ±0.28	92.64%	84.76% ±0.33	87.35%
Inception	90.00% ±0.70	86.30%	87.34% ±0.74	89.70%	84.37% ±0.50	86.34%

事前学習済みウェイトは、ESC-50、UrbanSound8K、GTZAN の各データセットでランダム初期化より一貫して性能を向上させる（例：ESC-50 で約 20%、UrbanSound8K で約 10%、GTZAN で >3%）。
ImageNet-pretrained DenseNet のアンサンブルは ESC-50 で 92.89%、UrbanSound8K で 87.42% を達成（当時の最先端）。
ネットワークの中段ブロック（Block3）は、ImageNet から音声への知識転移にとって重要であり、この領域を凍結または削除すると性能が大幅に低下する。
Integrated Gradients の可視化は、モデルがスペクトログラムの高エネルギー領域に焦点を当てており、音イベントの周りにエッジのような境界を学習していることを示す。
ウェイト変化分析（SVCCA）は、初期層がファインチューニング後も多くの事前学習特徴を保持する一方、中間層はタスク特有の適応をより受けることを示唆する。
5 個の独立して訓練したモデルのアンサンブルは、ESC-50 および UrbanSound8K で約+2%の絶対的な利得を生み出す（GTZAN ではわずかなばらつき）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。