[论文解读] Benchmarking TinyML Systems: Challenges and Direction
本文讨论了为 TinyML 建立一个公平的硬件基准测试的必要性,概述了关键挑战,并提出了一个类似 TinyMLPerf 的四基准套件,包含开放/封闭两种分区,使用四个多样化的用例、数据集和模型。
Recent advancements in ultra-low-power machine learning (TinyML) hardware promises to unlock an entirely new class of smart applications. However, continued progress is limited by the lack of a widely accepted benchmark for these systems. Benchmarking allows us to measure and thereby systematically compare, evaluate, and improve the performance of systems and is therefore fundamental to a field reaching maturity. In this position paper, we present the current landscape of TinyML and discuss the challenges and direction towards developing a fair and useful hardware benchmark for TinyML workloads. Furthermore, we present our four benchmarks and discuss our selection methodology. Our viewpoints reflect the collective thoughts of the TinyMLPerf working group that is comprised of over 30 organizations.
研究动机与目标
- 推动建立一个公平、可比较的 TinyML 硬件基准测试,以加速进展。
- 调查 TinyML 领域在用例、模型和数据集上的现状,以识别基准测试的空白。
- 识别 TinyML 基准测试中的基本挑战(功耗、内存、硬件/软件异质性)。
- 提出一个具体的前进路径,包含四个基准用例、数据集和参考模型。
提出的方法
- 分析当前的 TinyML 生态与基准测试工作。
- 识别使公平基准变得困难的核心挑战(功耗、内存、硬件与软件异质性)。
- 提出 TinyML 基准套件的原则性指南并定义四个目标用例。
- 选择开放数据集和参考模型以支撑封闭分区的基准。
- 定义一个以延迟为核心、可选能耗指标的测量框架,并设定可比性的分区。
实验结果
研究问题
- RQ1在制定一个公平且有用的 TinyML 硬件基准测试时,哪些是主要挑战?
- RQ2应如何构建 TinyML 基准以平衡可比性、开放性与代表性?
- RQ3哪些用例、数据集和模型最能覆盖 TinyML 基准测试的全景?
- RQ4哪些指标与分区(开放与封闭)最能在异质 TinyML 硬件上实现公平评估?
主要发现
- TinyML 基准测试面临四大主要挑战:低功耗测量、极端内存约束、硬件异质性以及软件部署多样性。
- 一个 TinyML 基准测试应采用开放与封闭分区,以在严格可比性、包容性和创新之间取得平衡。
- 选择了四个用例(音频唤醒词、视觉唤醒词、图像分类、异常检测)以覆盖多样的输入类型和模型族。
- 开放分区的结果必须将准确率保持在封闭分区参考模型的阈值内。
- 指标聚焦于推理延迟,并可选测量能耗。
- 优先考虑快速的最小可行基准集合,并计划迭代改进和社区参与。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。