[論文レビュー] Evaluating CNN with Stacked Feature Representations and Audio Spectrogram Transformer Models for Sound Classification
論文は、スタック特徴表現を用いたCNNと Audio Spectrogram Transformer (AST) モデルを環境音分類で比較し、データが限られた状況や事前学習時において、スタック特徴を持つCNNがデータ・計算効率に優れる一方、ASTは大規模事前学習で優れることを示している。
Environmental sound classification (ESC) has gained significant attention due to its diverse applications in smart city monitoring, fault detection, acoustic surveillance, and manufacturing quality control. To enhance CNN performance, feature stacking techniques have been explored to aggregate complementary acoustic descriptors into richer input representations. In this paper, we investigate CNN-based models employing various stacked feature combinations, including Log-Mel Spectrogram (LM), Spectral Contrast (SPC), Chroma (CH), Tonnetz (TZ), Mel-Frequency Cepstral Coefficients (MFCCs), and Gammatone Cepstral Coefficients (GTCC). Experiments are conducted on the widely used ESC-50 and UrbanSound8K datasets under different training regimes, including pretraining on ESC-50, fine-tuning on UrbanSound8K, and comparison with Audio Spectrogram Transformer (AST) models pretrained on large-scale corpora such as AudioSet. This experimental design enables an analysis of how feature-stacked CNNs compare with transformer-based models under varying levels of training data and pretraining diversity. The results indicate that feature-stacked CNNs offer a more computationally and data-efficient alternative when large-scale pretraining or extensive training data are unavailable, making them particularly well suited for resource-constrained and edge-level sound classification scenarios.
研究の動機と目的
- スタック特徴表現がCNNベースの環境音分類(ESC)を改善する方法を評価する。
- スタック特徴を用いたCNNとASTモデルを、異なるデータ量と事前学習条件の下で比較する。
- ESC-50とUrbanSound8K間の転移学習およびより大規模コーパス(AudioSet)での事前学習の影響を評価する。
- 提案されたCNNアーキテクチャの計算効率と推論待機時間を分析する。
提案手法
- Librosaを用いて複数の音響特徴量(LM、MTCC、CH、TZ、SPC、MFCC、GTCC)を抽出する。
- 128x128へリサイズしてチャネルを連結することでスタック特徴入力を作成する(例:128x128x3 または 128x128x4)。
- ESC-50で事前学習しUrbanSound8K(Last.L)でファインチューニングするか、All.Lでゼロから訓練するかという前提で、2つのCNNアーキテクチャ(CNN-1とCNN-2)を訓練する。
- AudioSetで事前学習されESC-50/UrbanSound8KでファインチューニングされたAudio Spectrogram Transformer (AST) と比較する。128ビンのLog-MelスペクトログラムとViT様のパッチ埋め込みを使用する。
- ESC-50とUrbanSound8Kで5-foldクロスバリデーションを用いて評価し、 accuracy、precision、recall、F1-scoreを報告する。
- 訓練時間と推論待機時間をデプロイの観点から評価する。

実験結果
リサーチクエスチョン
- RQ1スタック特徴CNNは、ESC-50/UrbanSound8Kデータセットで単一特徴 CNNに対してどう比較されるか?
- RQ2スタック特徴を用いたCNNの性能は、異なる事前学習条件下でASTモデルとどう比較されるか?
- RQ3転移学習(ESC-50→UrbanSound8K)の影響は性能と一般化にどう現れるか?
- RQ4提案されたCNNとASTの計算効率特性(訓練時間、推論時間)はどうか?
主な発見
| Model | Features | Training Setup | Val.Acc | Train.Acc | Precision | Recall | F1-score | Epochs |
|---|---|---|---|---|---|---|---|---|
| CNN-1 | LM | ESC, All.L | 0.68 | 1.00 | 0.68 | 0.68 | 0.66 | 150 |
| CNN-1 | LM+TZ | ESC, All.L | 0.65 | 1.00 | 0.66 | 0.66 | 0.64 | 150 |
| CNN-1 | LM+MFCC | ESC, All.L | 0.64 | 1.00 | 0.68 | 0.64 | 0.63 | 150 |
| CNN-1 | MFCC+TZ | ESC, All.L | 0.62 | 1.00 | 0.65 | 0.62 | 0.61 | 150 |
| CNN-1 | LM+SPC+CH | ESC, All.L | 0.62 | 1.00 | 0.65 | 0.62 | 0.62 | 150 |
| CNN-1 | MFCC+GTCC+CH+LM | ESC, All.L | 0.67 | 1.00 | 0.70 | 0.67 | 0.67 | 150 |
| CNN-2 | LM | ESC, All.L | 0.45 | 0.68 | 0.59 | 0.45 | 0.44 | 150 |
| CNN-2 | LM+TZ | ESC, All.L | 0.66 | 0.98 | 0.71 | 0.67 | 0.65 | 150 |
| CNN-2 | LM+MFCC | ESC, All.L | 0.59 | 0.99 | 0.64 | 0.59 | 0.59 | 150 |
| CNN-2 | MFCC+TZ | ESC, All.L | 0.62 | 0.97 | 0.69 | 0.63 | 0.61 | 150 |
| CNN-2 | LM+SPC+CH | ESC, All.L | 0.53 | 0.81 | 0.67 | 0.54 | 0.54 | 150 |
| CNN-2 | MFCC+GTCC+CH+LM | ESC, All.L | 0.58 | 0.97 | 0.67 | 0.59 | 0.56 | 150 |
| CNN-1 | LM | ESC+US8K, Last.L | 0.87 | 0.95 | 0.88 | 0.88 | 0.87 | 50 |
| CNN-1 | LM+TZ | ESC+US8K, Last.L | 0.88 | 0.96 | 0.89 | 0.88 | 0.88 | 50 |
| CNN-1 | LM+MFCC | ESC+US8K, Last.L | 0.91 | 0.98 | 0.92 | 0.92 | 0.92 | 50 |
| CNN-1 | MFCC+TZ | ESC+US8K, Last.L | 0.91 | 0.99 | 0.92 | 0.91 | 0.92 | 50 |
| CNN-1 | LM+SPC+CH | ESC+US8K, Last.L | 0.85 | 0.92 | 0.86 | 0.85 | 0.85 | 50 |
| CNN-1 | MFCC+GTCC+CH+LM | ESC+US8K, Last.L | 0.92 | 1.00 | 0.92 | 0.92 | 0.92 | 50 |
| CNN-2 | LM | ESC+US8K, Last.L | 0.85 | 0.91 | 0.86 | 0.85 | 0.85 | 50 |
| CNN-2 | LM+TZ | ESC+US8K, Last.L | 0.85 | 0.89 | 0.85 | 0.85 | 0.85 | 50 |
| CNN-2 | LM+MFCC | ESC+US8K, Last.L | 0.86 | 0.90 | 0.87 | 0.86 | 0.86 | 50 |
| CNN-2 | MFCC+TZ | ESC+US8K, Last.L | 0.87 | 0.92 | 0.87 | 0.87 | 0.87 | 50 |
| CNN-2 | LM+SPC+CH | ESC+US8K, Last.L | 0.85 | 0.89 | 0.86 | 0.85 | 0.85 | 50 |
| CNN-2 | MFCC+GTCC+CH+LM | ESC+US8K, Last.L | 0.87 | 0.90 | 0.88 | 0.87 | 0.87 | 50 |
- MFCC+GTCC+CH+LMを用いたCNN-1がESC-50の検証精度92.46%を達成(交差検証)。
- CNN-1は特徴セットを問わず一貫してCNN-2より優れており、より強い転移可能な表現を示す。
- スタック特徴を持つCNNは、限定データでESC-50から訓練した場合でもASTベースを上回る性能を示し、限定データで訓練した場合でもCNNが優位になる。大規模事前学習(Audioset)を用いたASTは別設定で99%に到達する。
- Esc-50からUrbanSound8Kへの転移学習(Last.L)はAll.Lより性能を大幅に改善し、データセット間の多様性と微調整戦略の価値を示す。
- CNN-1の推論時間は平均21.92 msで、CNN-2の平均30.95 msより短く、リソース制約下でのデプロイに適している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。