QUICK REVIEW

[论文解读] AI Benchmark: Running Deep Neural Networks on Android Smartphones

Andrey Ignatov, Radu Timofte|arXiv (Cornell University)|Oct 2, 2018

IoT and Edge/Fog Computing参考文献 39被引用 26

一句话总结

本文提出了 AI Benchmark，一个全面的性能评估框架，用于衡量 Android 智能手机上深度神经网络的推理速度与效率。该框架基于真实工作负载，在主流 SoC 平台（高通、海思、联发科、三星）上评估了硬件加速效果，结果表明：在浮点精度模型中，搭载 NPU 的华为麒麟 970 性能优于其他平台；而量化网络仍受限于工具链和精度问题。

ABSTRACT

Over the last years, the computational power of mobile devices such as smartphones and tablets has grown dramatically, reaching the level of desktop computers available not long ago. While standard smartphone apps are no longer a problem for them, there is still a group of tasks that can easily challenge even high-end devices, namely running artificial intelligence algorithms. In this paper, we present a study of the current state of deep learning in the Android ecosystem and describe available frameworks, programming models and the limitations of running AI on smartphones. We give an overview of the hardware acceleration resources available on four main mobile chipset platforms: Qualcomm, HiSilicon, MediaTek and Samsung. Additionally, we present the real-world performance results of different mobile SoCs collected with AI Benchmark that are covering all main existing hardware configurations.

研究动机与目标

评估当前 Android 智能手机上深度学习推理的现状，重点关注性能与硬件加速。
评估主流 AI 框架（TensorFlow Lite、SNPE、HiAI、NeuroPilot）在多种移动 SoC 上的有效性。
识别现有移动 AI 部署栈中的性能瓶颈与局限性，特别是可移植性与量化方面的挑战。
为开发者提供基于数据的建议，以选择适用于移动 AI 工作负载的最佳框架与硬件目标。
建立一个可重复的基准测试框架，用于追踪未来移动 AI 加速技术的发展。

提出的方法

开发并部署了 AI Benchmark v1.0，一个标准化的性能套件，用于在超过 10,000 台 Android 设备上测量 100 多个深度学习模型的推理速度。
收集了来自四大主要厂商（高通、海思、联发科、三星）的 50 多款移动系统级芯片（SoC）的真实推理性能数据。
在相同工作负载下评估了多种 AI 框架，包括 TensorFlow Lite、SNPE（高通）、HiAI（海思）和 NeuroPilot（联发科）。
测量了浮点精度与量化模型的性能，重点关注常见的计算机视觉与自然语言处理任务。
使用 Android 神经网络 API（NNAPI）作为通用抽象层，比较跨平台兼容性与性能表现。
分析了硬件加速器（NPU、GPU、DSP）对推理速度与能效的影响，重点关注真实工作负载下的表现。

实验结果

研究问题

RQ1在真实世界模型下，不同移动 SoC（高通、海思、联发科、三星）在深度学习推理性能方面如何比较？
RQ2使用厂商专用 SDK（如 SNPE、HiAI）与标准化框架（如 TensorFlow Lite 或 NNAPI）在性能与可移植性之间存在何种权衡？
RQ3硬件加速（NPU、GPU、DSP）在智能手机上对常见深度学习模型的推理速度与能效提升程度如何？
RQ4当前量化神经网络在移动部署中存在哪些局限性，它们如何影响精度与性能？
RQ5Android NNAPI 如何实现跨平台兼容性，其在不同设备平台上的实际性能影响是什么？

主要发现

搭载 NPU 的华为麒麟 970 SoC 在浮点精度模型中展现出最快的推理性能，显著优于评估时其他 SoC。
厂商专用 SDK（如 SNPE、HiAI、NeuroPilot）在各自平台上的性能优于通用框架（如 TensorFlow Lite），但牺牲了可移植性。
TensorFlow Lite 在部分设备上的性能与基于 CPU 的实现相当，但在复杂或非标准架构上表现不佳。
通过 NNAPI 实现的硬件加速在设备间表现不一致——部分设备即使具备 GPU 也未被使用，导致性能未达最优。
量化模型仍受限于缺乏可靠且标准化的量化工具，精度下降仍是主要关注点。
AI Benchmark 框架收集了超过 10,000 台设备与 50 多款 SoC 的数据，建立了可重复、基于真实场景的移动 AI 性能评估方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。