QUICK REVIEW

[论文解读] A Machine Learning Driven IoT Solution for Noise Classification in Smart Cities

Yasser Alsouda, Sabri Pllana|arXiv (Cornell University)|Sep 1, 2018

Music and Audio Processing参考文献 9被引用 24

一句话总结

本文提出了一种基于树莓派Zero W的低成本、低功耗物联网解决方案，用于在智慧城市中实时进行环境噪声分类。该方案采用梅尔频率倒谱系数（MFCCs）进行音频特征提取，并评估了支持向量机（SVM）与K近邻（KNN）分类器，实现在设备上推理时间低于一秒的情况下，准确率达到85%至100%。

ABSTRACT

We present a machine learning based method for noise classification using a low-power and inexpensive IoT unit. We use Mel-frequency cepstral coefficients for audio feature extraction and supervised classification algorithms (that is, support vector machine and k-nearest neighbors) for noise classification. We evaluate our approach experimentally with a dataset of about 3000 sound samples grouped in eight sound classes (such as, car horn, jackhammer, or street music). We explore the parameter space of support vector machine and k-nearest neighbors algorithms to estimate the optimal parameter values for classification of sound samples in the dataset under study. We achieve a noise classification accuracy in the range 85% -- 100%. Training and testing of our k-nearest neighbors (k = 1) implementation on Raspberry Pi Zero W is less than a second for a dataset with features of more than 3000 sound samples.

研究动机与目标

开发一种成本低廉且能效高效的物联网解决方案，用于智慧城市中持续的环境噪声监测。
通过分类噪声类型（如电钻声或枪声）来克服传统噪声测量方法（以分贝dB为单位）的局限性。
在低资源嵌入式平台（树莓派Zero W）上实现并评估基于机器学习的噪声分类。
针对真实城市声音数据集，对SVM和KNN的超参数进行优化，以实现最大分类准确率。
展示系统在KNN（k=1）下训练和测试时间均低于一秒的实时性能。

提出的方法

从环境声音样本中提取梅尔频率倒谱系数（MFCCs）作为音频特征，以稳健地表示频谱特性。
采用支持向量机（SVM）和k-最近邻（KNN）分类器进行监督学习，将声音分类为八个预定义类别。
通过全面探索参数空间，对SVM超参数（C和γ）和KNN超参数（k，距离度量：欧几里得、曼哈顿、切比雪夫）进行优化。
在树莓派Zero W上实现系统，利用其低功耗和低成本特性实现边缘部署。
使用来自UrbanSound8K和Sound Events数据集的3,042个环境声音样本，涵盖汽车喇叭、电钻声、街头音乐和枪声等类别。
通过混淆矩阵、分类准确率以及在嵌入式平台上的训练/测试推理时间来衡量性能。

实验结果

研究问题

RQ1像树莓派Zero W这样的低功耗物联网设备能否在真实环境音频上使用机器学习实现实时噪声分类？
RQ2SVM和KNN的最优超参数配置（C、γ、k、距离度量）是什么，以从MFCC特征中分类城市噪声类型？
RQ3SVM和KNN在真实城市声音数据集中的不同噪声类别上的分类准确率如何变化？
RQ4在树莓派Zero W上，KNN和SVM对3,042个声音样本数据集的推理时间表现如何？
RQ5基于MFCC的特征提取结合轻量级分类器是否能够实现超越简单分贝水平监测的准确噪声类型识别？

主要发现

所提出的系统在使用SVM和KNN分类器对全部八个声音类别进行分类时，准确率范围为85%至100%。
对于KNN，当k=1时准确率最高，且随着k值增加性能下降，表明该数据集下局部邻域信息最为有效。
针对该数据集，SVM的最优超参数为C=3和γ=0.1，可实现最高分类准确率。
在树莓派Zero W上，使用k=1的KNN模型对全部3,042个样本进行训练和测试的时间均小于一秒。
k=1的KNN模型推理时间最快（测试耗时0.21秒），而SVM的训练时间则因C和γ值的不同，在4.29至35.32秒之间变化。
混淆矩阵显示，某些类别（如街头音乐和汽车喇叭）更容易被误分类，但整体上所有类别的模型性能均表现良好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。