Skip to main content
QUICK REVIEW

[论文解读] TorR: Towards Brain-Inspired Task-Oriented Reasoning via Cache-Oriented Algorithm-Architecture Co-design

Hyunwoo Oh, SungHeon Jeong|arXiv (Cornell University)|Mar 24, 2026
Advanced Neural Network Applications被引用 0
一句话总结

TorR 提出一种脑启发式、缓存导向的算法-架构协同设计,用超维联想推理器和查询缓存替代密集 CLIP 风格对齐,以实现实时、节能的边缘任务导向检测。它在处理五个任务时实现每帧毫焦级能耗、30/60 FPS,同时保持与 AP@0.5 的竞争力。

ABSTRACT

Task-oriented object detection (TOOD) atop CLIP offers open-vocabulary, prompt-driven semantics, yet dense per-window computation and heavy memory traffic hinder real-time, power-limited edge deployment. We present \emph{TorR}, a brain-inspired extbf{algorithm--architecture co-design} that extbf{replaces CLIP-style dense alignment with a hyperdimensional (HDC) associative reasoner} and turns temporal coherence into reuse. On the \emph{algorithm} side, TorR reformulates alignment as HDC similarity and graph composition, introducing \emph{partial-similarity reuse} via (i) query caching with per-class score accumulation, (ii) exact $δ$-updates when only a small set of hypervector bits change, and (iii) similarity/load-gated bypass under high system load. On the \emph{architecture} side, TorR instantiates a lane-scalable, bit-sliced item memory with bank/precision gating and a lightweight controller that schedules bypass/$δ$/full paths to meet RT-30/RT-60 targets as object counts vary. Synthesized in a TSMC 28\,nm process and exercised with a cycle-accurate simulator, TorR sustains real-time throughput with millijoule-scale energy per window ($\approx$50\,mJ at 60\,FPS; $\approx$113\,mJ at 30\,FPS) and low latency jitter, while delivering competitive AP@0.5 across five task prompts (mean 44.27\%) within a bounded margin to strong VLM baselines, but at orders-of-magnitude lower energy. The design exposes deployment-time configurability (effective dimension $D'$, thresholds, precision) to trade accuracy, latency, and energy for edge budgets.

研究动机与目标

  • 以开放词汇语义和严格的功耗/延迟预算为边缘环境的任务导向检测提供动机。
  • 用脑启发的超维联想推理器替代密集的 CLIP 风格对齐。
  • 引入基于缓存的部分相似性复用,以利用帧间的时间一致性。
  • 开发带事件驱动编码器、位切分内存和轻量级控制器的软硬件协同设计,以实现 RT-30/RT-60。
  • 在保持具有竞争力的任务精度的同时,展示实时性能与能效。

提出的方法

  • 事件驱动的脉冲神经网络编码器从 DVS 事件中产生查询向量 q。
  • 超维计算(HDC)通过余弦相似性将 q 与一组概念超向量 h_j 进行关联。
  • 查询缓存加上部分相似性(delta)更新在场景变化较小时复用先前结果。
  • HDC 图形推理器对齐器分数应用任务特定权重,生成每项的最终分数。
  • FPS/ QoS 控制器结合银行/精度门控,在动态负载下实现 30/60 FPS 的需求。
  • 硬件加速器实现带有 delta/全路径的缓存门控相似性核,以及一个轻量级控制器。

实验结果

研究问题

  • RQ1在边缘执行的任务导向检测中,时序复用和基于缓存的部分更新能否减少数据移动和能耗?
  • RQ2用基于 HDC 的联想推理器替代密集的 CLIP 风格对齐,在实时约束下对准确性和延迟有何影响?
  • RQ3哪些部署时的调整(维度 D'、delta 预算、精度、阈值)能在不同场景下优化准确性、延迟和能耗?
  • RQ4是否存在一种可扩展、受内存约束的架构,能够在多提示下维持 RT-30/RT-60,并实现毫焦级能耗?
  • RQ5所提出的协同设计与强 VLM 基线在边缘预算下的 AP@0.5 的比较如何?
  • RQ6场景动态性(连贯性与运动)以及资源门控对性能的敏感性如何?

主要发现

  • TorR 在每个窗口实现 30/60 FPS,能量在毫焦级别(60 FPS 时约 50 mJ;30 FPS 时约 113 mJ)。
  • 五个任务的平均 AP@0.5 为 44.27%,在对强 VLM 基线的边界内部,且能耗显著更低。
  • 部分相似性复用将工作量从 O(MD') 降至 O(M|Δ|),并降低内存流量。
  • 积极的复用和基于缓存的旁路在动态负载下提供可预测的低抖动延迟。
  • 硬件综合(28 nm)显示联想对齐器在面积和功耗上占主导,总运行功率峰值约 4.66 W,且通过门控降低了平均功耗。
  • RT 目标在各任务中均已达到,p95 延迟远低于预算,单帧能量随场景复用与运动而变化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。