[论文解读] EdgeSpeechNets: Highly Efficient Deep Neural Networks for Speech Recognition on the Edge
EdgeSpeechNets 引入了一种人机协作的设计策略,以构建适用于设备端语音识别的高效深度神经网络。通过结合人工驱动的网络架构原型设计与机器驱动的生成式架构搜索,该方法生成的 EdgeSpeechNets 在 Google 语音命令数据集上实现了最先进水平的准确率(最高约 97%),同时相比先前模型,模型参数量减少最多 7.8 倍,乘加操作数减少最多 36 倍,推理延迟降低 10 倍。
Despite showing state-of-the-art performance, deep learning for speech recognition remains challenging to deploy in on-device edge scenarios such as mobile and other consumer devices. Recently, there have been greater efforts in the design of small, low-footprint deep neural networks (DNNs) that are more appropriate for edge devices, with much of the focus on design principles for hand-crafting efficient network architectures. In this study, we explore a human-machine collaborative design strategy for building low-footprint DNN architectures for speech recognition through a marriage of human-driven principled network design prototyping and machine-driven design exploration. The efficacy of this design strategy is demonstrated through the design of a family of highly-efficient DNNs (nicknamed EdgeSpeechNets) for limited-vocabulary speech recognition. Experimental results using the Google Speech Commands dataset for limited-vocabulary speech recognition showed that EdgeSpeechNets have higher accuracies than state-of-the-art DNNs (with the best EdgeSpeechNet achieving ~97% accuracy), while achieving significantly smaller network sizes (as much as 7.8x smaller) and lower computational cost (as much as 36x fewer multiply-add operations, 10x lower prediction latency, and 16x smaller memory footprint on a Motorola Moto E phone), making them very well-suited for on-device edge voice interface applications.
研究动机与目标
- 为解决在资源受限的边缘设备(如智能手机和物联网设备)上部署语音识别深度学习模型的挑战。
- 克服纯人工设计或纯自动化方法在深度神经网络设计中的局限性,通过整合人工专业知识与自动化机器驱动的架构搜索。
- 开发一系列专为有限词汇量语音识别而优化的高效、轻量级深度神经网络(EdgeSpeechNets)。
- 在边缘硬件上实现模型准确率、模型大小、计算成本与推理延迟之间的卓越权衡。
提出的方法
- 该方法始于基于既定原则的人工驱动架构原型设计:使用 MFCC 输入表示、带有批量归一化的残差块,以及全局平均池化层后接全连接层和 Softmax 输出层。
- 采用生成式架构合成框架实现机器驱动的架构探索,支持对卷积核大小、滤波器数量和网络深度等架构超参数进行细粒度的自动化搜索。
- 设计空间受到特定约束,包括模型大小、FLOPs 和延迟,以确保适用于设备端部署。
- 最终的 EdgeSpeechNets 通过一个优化准确率、效率与硬件约束的搜索过程生成,并在 Google 语音命令数据集上进行验证。
- 该方法采用混合策略:人工专业知识定义初始架构蓝图,而机器学习则在庞大的架构变体空间中进行探索。
- 最终模型在 Motorola Moto E 手机上使用 TensorFlow Lite 进行评估,以测量实际推理性能,包括延迟和内存占用。
实验结果
研究问题
- RQ1人机协作设计策略是否能优于纯人工或纯自动化方法,在构建面向边缘语音识别的高效 DNN 方面表现更优?
- RQ2在保持或超越当前最先进准确率的前提下,模型效率(以参数量、FLOPs 和延迟衡量)最多可提升多少?
- RQ3生成式合成在探索超参数调优之外的架构变体方面,能多大程度上实现创新且高效的网络结构?
- RQ4所提出的方法能否生成显著更小、更快的模型,相比现有最先进模型如 res15 和 tpool2,同时保持更高准确率?
- RQ5所生成的 EdgeSpeechNets 在消费级移动设备上的实际推理性能如何?
主要发现
- EdgeSpeechNet-A 的测试准确率达到 96.8%,比最先进模型 res15 高出 1%,同时参数量减少 2.2 倍,乘加操作数减少 2.6 倍。
- EdgeSpeechNet-B 的准确率比 res15 高出 0.5%,参数量减少 5.4 倍,乘加操作数减少 7.1 倍。
- EdgeSpeechNet-C 的准确率比 res15 高出 0.4%,参数量减少 7.8 倍,乘加操作数减少 10.7 倍,展现出最佳的模型大小效率。
- EdgeSpeechNet-D 的准确率与 res15 相当,但乘加操作数仅需其 1/36.5,是所有测试模型中计算成本最低的。
- 在 Motorola Moto E 手机上,EdgeSpeechNet-D 的平均预测延迟为 34ms,内存占用为 1MB,分别比 res15 降低 10 倍和 16.5 倍。
- EdgeSpeechNet-D 的 NetScore 达到 106.67,比 res15 超出 20 多分,表明其在准确率、模型大小与计算成本之间具有更优的综合平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。