Skip to main content
QUICK REVIEW

[論文レビュー] A Machine Learning Driven IoT Solution for Noise Classification in Smart Cities

Yasser Alsouda, Sabri Pllana|arXiv (Cornell University)|Sep 1, 2018
Music and Audio Processing参考文献 9被引用数 24
ひとこと要約

本稿では、スマートシティにおけるリアルタイム環境ノイズ分類のための低コスト・低消費電力なIoTソリューションを、Raspberry Pi Zero Wを用いて提示する。音声特徴抽出にメル周波数 cepstral コ efficient(MFCCs)を採用し、SVMおよびKNN分類器の性能を評価した結果、デバイス上での推論時間1秒未塔で85–100%の精度を達成した。

ABSTRACT

We present a machine learning based method for noise classification using a low-power and inexpensive IoT unit. We use Mel-frequency cepstral coefficients for audio feature extraction and supervised classification algorithms (that is, support vector machine and k-nearest neighbors) for noise classification. We evaluate our approach experimentally with a dataset of about 3000 sound samples grouped in eight sound classes (such as, car horn, jackhammer, or street music). We explore the parameter space of support vector machine and k-nearest neighbors algorithms to estimate the optimal parameter values for classification of sound samples in the dataset under study. We achieve a noise classification accuracy in the range 85% -- 100%. Training and testing of our k-nearest neighbors (k = 1) implementation on Raspberry Pi Zero W is less than a second for a dataset with features of more than 3000 sound samples.

研究の動機と目的

  • スマートシティにおける継続的環境ノイズモニタリングのためのコスト効率が良く、エネルギー効率の高いIoTソリューションの開発。
  • デシベル(dB)による従来のノイズレベル測定の限界を補うために、パワーハンマーまたは銃声などのノイズの種別を分類すること。
  • 低リソースな組み込みプラットフォーム(Raspberry Pi Zero W)に、機械学習ベースのノイズ分類を実装・評価すること。
  • 実世界の都市音声データセット上で、SVMおよびKNNのハイパーパramータを最適化し、分類精度を最大化すること。
  • KNN(k=1)の訓練およびテスト時間1秒未塔のリアルタイム性能を実証すること。

提案手法

  • 環境音声サンプルからメル周波数 cepstral コ efficient(MFCCs)を抽出し、スペクトル特性の強固な表現を実現する。
  • サポートベクターマシン(SVM)およびk-近傍法(KNN)分類器を用いて、音声を8つの事前に定義されたクラスに分類する教師あり学習を実施する。
  • SVMのハイパーパramータ(Cおよびγ)とKNNのハイパーパramータ(k、距離尺度:ユークリッド、マンハッタン、チェビシェフ)を、網羅的なパラメータ空間探索によって最適化する。
  • Raspberry Pi Zero Wにシステムを実装し、エッジデプロイメントに適した低消費電力・低コストを活用する。
  • UrbanSound8KおよびSound Eventsから得た3,042件の環境音声サンプルのデータセットを用い、自動車のブザー、パワーハンマー、ストリートミュージック、銃声などのクラスをカバーする。
  • 混同行列、分類精度、および組み込みプラットフォーム上での訓練/テスト推論時間によって性能を測定する。

実験結果

リサーチクエスチョン

  • RQ1Raspberry Pi Zero Wのような低消費電力IoTデバイスが、実世界の環境音声上で機械学習を用いてリアルタイムのノイズ分類を達成できるか。
  • RQ2都市ノイズタイプをMFCC特徴から分類する最適なSVMおよびKNNハイパーパramータ設定(C、γ、k、距離尺度)は何か。
  • RQ3実世界の都市音声データセットにおいて、SVMおよびKNNの分類精度は、異なるノイズクラスでどのように変動するか。
  • RQ4Raspberry Pi Zero W上でのKNNおよびSVMの推論時間性能は、3,042件の音声サンプルのデータセットに対してどの程度か。
  • RQ5MFCCベースの特徴抽出と軽量分類器の組み合わせにより、単なるdBレベル監視を越えた正確なノイズ種別特定が可能になるか。

主な発見

  • 提案されたシステムは、SVMおよびKNN分類器を用いて、全8クラスのノイズで分類精度が85%~100%の範囲で達成された。
  • KNNでは、k=1で最高の精度が達成され、kが増加するにつれて性能が低下した。これは、このデータセットでは局所的近傍情報が最も効果的であることを示している。
  • このデータセットにおける最適なSVMハイパーパramータは、C=3およびγ=0.1であり、これが最高の分類精度をもたらした。
  • Raspberry Pi Zero W上で、KNNモデル(k=1)の全3,042件のデータセットに対する訓練およびテストに1秒未塔を要した。
  • k=1のKNNモデルは、テストに0.21秒という最速の推論時間を記録した。一方、SVMの訓練時間はCおよびγの値に応じて4.29~35.32秒の範囲であった。
  • 混同行列の結果、ストリートミュージックや自動車のブザーなどの一部のクラスは誤分類されやすい傾向にあったが、全クラスにおいて全体的なモデル性能は高く維持された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。