QUICK REVIEW

[论文解读] Kraken: A Direct Event/Frame-Based Multi-sensor Fusion SoC for Ultra-Efficient Visual Processing in Nano-UAVs

Alfio Di Mauro, Moritz Scherer|arXiv (Cornell University)|Jan 1, 2022

CCD and CMOS Imaging Sensors被引用 3

一句话总结

Kraken 是一款 22nm 异构系统级芯片（SoC），通过专用加速器融合事件触发（DVS）与帧式（BW/RGB）传感器，实现纳米级无人飞行器（nano-UAVs）中超高效的并发视觉处理。其在三值推理中实现 1036 TOp/s/W 的能效，光学流计算功耗为 98mW，吞吐量比当前最先进（SoA）的 RISC-V 集群高出 1.66 倍，可在 1W 功耗限制下实现完整的机载自主飞行。

ABSTRACT

Small-size unmanned aerial vehicles (UAV) have the potential to dramatically increase safety and reduce cost in applications like critical infrastructure maintenance and post-disaster search and rescue. Many scenarios require UAVs to shrink toward nano and pico-size form factors. The key open challenge to achieve true autonomy on Nano-UAVs is to run complex visual tasks like object detection, tracking, navigation and obstacle avoidance fully on board, at high speed and robustness, under tight payload and power constraints. With the Kraken SoC, fabricated in 22nm FDX technology, we demonstrate a multi-visual-sensor capability exploiting both event-based and BW/RGB imagers, combining their output for multi-functional visual tasks previously impossible on a single low-power chip for Nano-UAVs. Kraken is an ultra-low-power, heterogeneous SoC architecture integrating three acceleration engines and a vast set of peripherals to enable efficient interfacing with standard frame-based sensors and novel event-based DVS. Kraken enables highly sparse event-driven sub-uJ/inf SNN inference on a dedicated neuromorphic energy-proportional accelerator. Moreover, it can perform frame-based inference by combining a 1.8TOp\s\W 8-cores RISC-V processor cluster with mixed-precision DNN extensions with a 1036TOp\s\W} TNN accelerator.

研究动机与目标

在严格的功耗与载荷限制下，实现纳米级无人飞行器的完整机载视觉自主飞行。
在单颗低功耗 SoC 上集成事件触发（DVS）与帧式（BW/RGB）传感器处理能力。
在资源受限环境中，实现针对脉冲神经网络（SNN）与深度神经网络（DNN）推理的超高效能效。
设计一种异构加速器架构，支持多种视觉任务的并发执行。

提出的方法

采用 32 位 RISC-V 架构的 Fabric Controller（FC）管理并卸载计算任务至三个专用加速器。
使用稀疏神经引擎（SNE），通过显式坐标列表（COO）表示，以密集计算突发方式高效处理稀疏、异步的 DVS 事件。
实现完全展开的三值推理引擎（CUTIE），将所有三值权重以 1.6 位压缩格式存储于片上，实现每通道每周期一个输出激活。
集成由 8 个 RISC-V 核心组成的并行超低功耗集群（PULP），支持硬件循环、MAC-LD 指令及混合精度浮点与 SIMD 扩展，以高效执行 DNN 推理。
结合 1.8 TOp/s/W 的 8 核 RISC-V 集群与 1036 TOp/s/W 的 TNN 加速器及 SNE，实现多模态视觉处理。
采用 1MiB 的 L2 临时存储 SRAM 与可电源门控的加速器，最大限度降低动态与静态功耗。

实验结果

研究问题

RQ1单颗超低功耗 SoC 是否能高效融合事件触发与帧式视觉数据，实现纳米级无人飞行器的自主导航？
RQ2在异构嵌入式架构上，脉冲神经网络（SNN）与三值神经网络（TNN）推理可实现多高的能效？
RQ3专用加速器（SNE、CUTIE、PULP）的集成在吞吐量与能效方面与当前最先进水平相比如何？
RQ4稀疏事件驱动处理在实时光学流估计中可将功耗降低到何种程度？
RQ5所提出的架构是否能在 1W 功耗范围内，同时执行多种视觉任务（如导航、避障、目标检测）？

主要发现

SNE 在 1% 网络活跃度下实现每秒 20800 次推理，在 20% 活跃度下实现每秒 1019 次推理，工作在 222MHz 与 0.8V 电压下功耗为 98mW。
CUTIE 加速器实现 1036 TOp/s/W 的能效，相比当前最先进水平提升 2 倍，且在 CIFAR10 数据集上使用三值化网络时准确率比 [5] 高 2%。
PULP 集群在 80mW 功耗下实现每秒 28 次 DroNet 导航推理，由于支持 MAC-LD 指令，其吞吐量比 Vega [7] 在相同频率下高出 1.66 倍。
在 4 位与 2 位卷积运算中，Kraken 的 SIMD 扩展相比当前最先进 RISC-V 集群的能效提升超过 2.6 倍。
SNE 在 IBM-DVSGesture 数据集上实现 92% 准确率，相比当前最先进 6 层 CSNN 的能效高出 1.7 倍。
Kraken 的异构架构可在单一 1W 功耗范围内，同时执行光学流（SNE）、目标检测（CUTIE）与障碍物避让（PULP）等视觉任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。