QUICK REVIEW

[论文解读] Classification of Infant Crying in Real-World Home Environments Using Deep Learning

Xuewen Yao, Megan Micheletti|arXiv (Cornell University)|May 12, 2020

Infant Health and Development被引用 4

一句话总结

该论文提出了一种深度学习模型，结合频谱图和声学特征，利用780小时连续可穿戴设备录制的音频，在真实家庭环境中对婴儿哭闹进行分类。该模型在真实世界数据上的F1分数达到0.597，显著优于先前的行业实践方法（F1 = 0.166）和最先进方法（F1 = 0.26）。

ABSTRACT

In the domain of social signal processing, audio recognition is a promising avenue for accessing daily behaviors that contribute to health and well-being. However, despite advances in mobile computing and machine learning, audio behavior detection models are largely constrained to data collected in controlled settings, such as call centers. This is problematic as it means their performance is unlikely to generalize to real-world applications. In the current paper, we present a model combining deep spectrum and acoustic features to detect and classify infant distress vocalizations from 24 hour, continuous, raw real-world data collected via a wearable audio recorder. Our model dramatically outperforms infant distress detection models trained and tested on equivalent real-world datasets. In particular, our model has an F1 score of 0.597 relative to F1 scores of 0.166 and 0.26 achieved by state-of-practice and state-of-the-art real-world infant distress classifiers, respectively. We end by discussing what may have facilitated this massive gain in accuracy, including using supervised deep spectrum features and the fact that we collected and annotated a massive dataset of 780 hours of real-world audio data with over 25 hours of labelled distress.

研究动机与目标

解决在受控数据上训练的婴儿哭闹检测模型与真实世界环境之间存在的泛化差距。
开发一种鲁棒的音频分类系统，能够在连续的真实家庭录音中检测并分类婴儿哭闹声。
通过利用监督式深度频谱特征和大规模人工标注的780小时音频数据集（其中包含25小时以上的标注哭闹声）来提升真实世界数据上的性能。
探究深度频谱表示和大规模真实世界数据采集是否能显著提升婴儿哭声检测模型的准确性。

提出的方法

该模型将通过监督训练学习到的深度频谱特征与传统声学特征相结合，以增强表征学习能力。
从家庭环境中可穿戴录音设备收集了大规模的780小时连续原始音频数据集，其中超过25小时经过人工标注为婴儿哭闹。
深度神经网络架构在真实世界数据集上进行端到端训练，将婴儿哭声分类为哭闹与非哭闹类别。
通过卷积神经网络（CNN）提取频谱图特征，以学习音频频谱图中的分层模式。
使用标准指标（包括F1分数）在保留的真实世界录音测试集上对模型进行评估。
使用真实世界数据和监督式特征学习使模型泛化能力优于在合成或受控数据上训练的模型。

实验结果

研究问题

RQ1在真实世界连续音频数据上训练的深度学习模型，是否能显著提升婴儿哭闹分类的性能，相比在受控数据上训练的模型？
RQ2与仅使用传统声学特征相比，监督式深度频谱特征在多大程度上提升了分类准确率？
RQ3大规模真实世界数据采集对婴儿哭声检测模型的泛化能力和鲁棒性有何影响？
RQ4导致在受控数据与真实世界数据上训练的模型之间性能差距的因素有哪些？

主要发现

所提出的模型在真实世界测试数据上的F1分数达到0.597，显著优于行业实践模型（F1 = 0.166）。
该模型还优于最先进真实世界分类器（F1 = 0.26），表明性能有显著提升。
使用监督式深度频谱特征有助于更好的表征学习并提升检测准确率。
包含780小时音频和25小时以上标注哭闹声的大规模真实世界数据集是模型泛化能力提升的关键因素。
结果表明，在真实世界环境中进行数据采集对于训练能够超越受控环境泛化能力的模型至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。