Skip to main content
QUICK REVIEW

[論文レビュー] Comparison of Time-Frequency Representations for Environmental Sound Classification using Convolutional Neural Networks

Muhammad Huzaifah|arXiv (Cornell University)|Jun 22, 2017
Music and Audio Processing参考文献 18被引用数 122
ひとこと要約

この論文では、CNNベースの環境音分類においてSTFT(線形およびMel)、CQT、CWT、MFCCベースの入力を比較し、Mel-STFTが概ね強力で、MFCCが最も弱い、2D畳み込みがしばしば1Dを上回る傾向があり、窓サイズは信号クラスによって結果を左右する、という結論を得ている。

ABSTRACT

Recent successful applications of convolutional neural networks (CNNs) to audio classification and speech recognition have motivated the search for better input representations for more efficient training. Visual displays of an audio signal, through various time-frequency representations such as spectrograms offer a rich representation of the temporal and spectral structure of the original signal. In this letter, we compare various popular signal processing methods to obtain this representation, such as short-time Fourier transform (STFT) with linear and Mel scales, constant-Q transform (CQT) and continuous Wavelet transform (CWT), and assess their impact on the classification performance of two environmental sound datasets using CNNs. This study supports the hypothesis that time-frequency representations are valuable in learning useful features for sound classification. Moreover, the actual transformation used is shown to impact the classification accuracy, with Mel-scaled STFT outperforming the other discussed methods slightly and baseline MFCC features to a large degree. Additionally, we observe that the optimal window size during transformation is dependent on the characteristics of the audio signal and architecturally, 2D convolution yielded better results in most cases compared to 1D.

研究の動機と目的

  • CNNベースの環境音分類のための効果的な時間-周波数入力表現の探索を動機づける。
  • 2つの公開データセットで、異なるスペクトロ-時間表現がCNN性能に与える影響を評価する。
  • CNNアーキテクチャ(2D対1D畳み込み)と入力窓の設定が分類精度に与える影響を評価する。

提案手法

  • 22.05 kHzにリサンプリングした4秒クリップから、線形-STFT、Mel-STFT、CQT、CWT、MFCCセプストログラムの複数の時間-周波数表現を計算する。
  • 入力を2Dのスペクトログラムに似た画像として用意し、標準化されたサイズへダウンスケールする。
  • ReLU、ドロップアウト、L2正則化、Adam最適化を用いて、Conv-5およびConv-3(3x3およびMx3フィルタ)のCNN変種を訓練する。
  • ESC-50で5分割、UrbanSound8Kで10分割の交差検証を用いて評価し、中央値精度とMADを報告する。
  • 2D対1Dの畳み込みを比較し、窓サイズの影響(ワイドバンド vs ニアバンド)を分析する。
  • 表現間の有意差を決定するためにANOVAとTukeyのポストホック検定を使用する。

実験結果

リサーチクエスチョン

  • RQ1ESC-50とUrbanSound8Kにおいて、どの時間-周波数表現が最も良いCNNベースの環境音分類性能を示すか?
  • RQ2広帯域窓と狭帯域窓の設定は、表現間で精度にどのような影響を与えるか?
  • RQ3スペクトログラムベースの入力に対して、2D畳み込み層は1D畳み込みより性能が良いか?
  • RQ4CNNとともに使用した場合、MFCCベースの入力は現代的なスペクトログラム表現と比べて依然として競争力があるか?
  • RQ5異なる入力に対するネットワーク深さ(Conv-3 vs Conv-5)の相対的影響はどの程度か?

主な発見

Representation/ModelLinear-STFT widebandLinear-STFT narrowbandMel-STFT widebandMel-STFT narrowbandCQT widebandCQT narrowbandCWT widebandMFCC
ESC-50 Conv-5: M×344.50 ± 2.0046.62 ± 2.2546.25 ± 2.0048.00 ± 1.6342.00 ± 2.3742.62 ± 1.5038.25 ± 1.5030.50 ± 1.50
ESC-50 Conv-5: 3×349.25 ± 0.7550.00 ± 1.8850.87 ± 2.5053.75 ± 1.7546.87 ± 1.1348.62 ± 2.0040.50 ± 2.1336.62 ± 2.13
ESC-50 Conv-3: M×352.12 ± 1.1255.12 ± 1.8856.37 ± 1.6356.25 ± 1.7554.37 ± 2.2553.50 ± 1.8746.50 ± 1.6335.25 ± 2.75
ESC-50 Conv-3: 3×355.00 ± 1.3753.00 ± 1.6254.00 ± 1.2555.00 ± 1.6351.75 ± 1.2551.62 ± 2.2546.62 ± 1.8735.00 ± 0.75
UrbanSound8K Conv-5: M×361.19 ± 4.8163.44 ± 3.3962.22 ± 5.1964.97 ± 3.6962.87 ± 3.2563.12 ± 3.2556.90 ± 2.1059.23 ± 3.24
UrbanSound8K Conv-5: 3×367.94 ± 4.2262.83 ± 4.7369.59 ± 4.1965.31 ± 2.1969.25 ± 4.6964.33 ± 3.6061.56 ± 1.8057.15 ± 1.81
UrbanSound8K Conv-3: M×368.81 ± 4.5066.72 ± 2.7270.69 ± 4.0668.29 ± 3.0070.94 ± 4.0667.06 ± 3.1264.00 ± 2.1764.87 ± 2.17
UrbanSound8K Conv-3: 3×370.94 ± 2.9468.19 ± 3.2574.66 ± 3.3971.25 ± 1.8573.03 ± 3.5668.31 ± 2.3564.75 ± 1.4462.81 ± 4.03
  • Mel-STFTスペクトログラム入力は、モデルとデータセットを問わず一貫して良好な性能を示した。
  • ほとんどのスペクトル表現はMFCCベースを上回る傾向が強く、多くの場合MFCCは顕著に劣っていた。
  • 2D畳み込みは概して1D畳み込みより優れていたが、ESC-50の浅いモデルで例外があった。
  • ワイドバンド vs 狭帯域の効果はデータセットとクラスによって異なり、クラス依存の窓サイズの利点を示す。
  • Conv-3(3x3)はConv-5を上回ることが多く、与えられたクリップでの深いアーキテクチャに対する過学習とデータ制約を示唆する。
  • UrbanSound8Kでは、Conv-5またはConv-3と特定の入力の組み合わせが最高の精度を達成した例がある(例: UrbanSound8KでConv-3 with 3x3が中央値74.66%に達成)。
  • CWTはMFCCに近い性能で推移する傾向があり、Mel-STFTおよびCQTより劣る場合があることが多く、UrbanSound8Kでは特にそうなることがあった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。