[論文レビュー] Kraken: A Direct Event/Frame-Based Multi-sensor Fusion SoC for Ultra-Efficient Visual Processing in Nano-UAVs
Krakenは22nmの非一様なシステムオンチップ(SoC)であり、専用アクセラレータを用いてイベントベース(DVS)およびフレームベース(BW/RGB)センサを統合することで、ナノUAVにおける超効率的かつ並列な視覚処理を可能にする。1036 TOp/s/Wのエネルギー効率を達成する3値推論、スパikingニューラルネットワークの光流速処理で98mW、SoAのRISC-Vクラスターより1.66倍高いスループットを実現し、1Wの電力制約下でも完全なオンボード自律走行を実現する。
Small-size unmanned aerial vehicles (UAV) have the potential to dramatically increase safety and reduce cost in applications like critical infrastructure maintenance and post-disaster search and rescue. Many scenarios require UAVs to shrink toward nano and pico-size form factors. The key open challenge to achieve true autonomy on Nano-UAVs is to run complex visual tasks like object detection, tracking, navigation and obstacle avoidance fully on board, at high speed and robustness, under tight payload and power constraints. With the Kraken SoC, fabricated in 22nm FDX technology, we demonstrate a multi-visual-sensor capability exploiting both event-based and BW/RGB imagers, combining their output for multi-functional visual tasks previously impossible on a single low-power chip for Nano-UAVs. Kraken is an ultra-low-power, heterogeneous SoC architecture integrating three acceleration engines and a vast set of peripherals to enable efficient interfacing with standard frame-based sensors and novel event-based DVS. Kraken enables highly sparse event-driven sub-uJ/inf SNN inference on a dedicated neuromorphic energy-proportional accelerator. Moreover, it can perform frame-based inference by combining a 1.8TOp\s\W 8-cores RISC-V processor cluster with mixed-precision DNN extensions with a 1036TOp\s\W} TNN accelerator.
研究の動機と目的
- 厳密な電力および積載制約下でナノUAVにおける完全なオンボード視覚自律走行を実現すること。
- イベントベース(DVS)およびフレームベース(BW/RGB)センサ処理を1つの低消費電力SoCに統合すること。
- リソース制約のある環境におけるスパikingおよびディープニューラルネットワーク推論の超高いエネルギー効率を達成すること。
- 多様な視覚タスクを並列実行できる非一様アクセラレータアーキテクチャの開発
提案手法
- 32ビットRISC-Vファブリックコントローラー(FC)を採用し、3つの専用アクセラレータへの計算の管理およびオフロードを実行する。
- スパースな非同期的DVSイベントを密な計算バーストにより効率的に処理するため、明示的座標リスト(COO)表現を用いたスパースニューラルエンジン(SNE)を採用する。
- すべての3値重みを1.6ビット圧縮形式でオンチップに保持する完全アンロールド3値推論エンジン(CUTIE)を実装し、1チャンネルあたり1サイクルに1つの出力活性化を可能にする。
- 効率的なDNN推論を実現するため、ハードウェアループ、MAC-LD、混合精度浮動小数点およびSIMD拡張を備えた8RISC-Vコアのパラレル超低消費電力クラスタ(PULP)を統合する。
- 8コアRISC-Vクラスタ(1.8 TOp/s/W)と1036 TOp/s/WのTNNアクセラレータおよびSNEを統合し、マルチモーダルな視覚処理を実現する。
- 1MiB L2スクラッチパッドSRAMと電源ゲート付きアクセラレータを採用し、動的および静的消費電力を最小限に抑える。
実験結果
リサーチクエスチョン
- RQ11つの超低消費電力SoCが、自律ナノUAVのナビゲーションに適したイベントベースおよびフレームベースの視覚データを効率的に統合できるか。
- RQ2非一様で埋め込み型アーキテクチャ上でのスパキングニューラルネットワーク(SNN)および3値ニューラルネットワーク(TNN)推論で達成可能なエネルギー効率の水準はどの程度か。
- RQ3SNE、CUTIE、PULPといった専用アクセラレータの統合は、視覚タスクにおけるスループットおよびエネルギー効率の面で、現在の最先端技術と比較してどの程度優れているか。
- RQ4スパースなイベント駆動処理が、リアルタイムの光流速推定におけるエネルギー消費をどの程度削減できるか。
- RQ5提案されたアーキテクチャは、1Wの電力制限内に、複数の視覚タスク(ナビゲーション、障害物回避、物体検出)を同時に実行できるか。
主な発見
- SNEは1%のネットワーク活動率で1秒間に20800インフェレンス、20%活動率で1秒間に1019インフェレンスを達成し、222MHz、0.8Vで98mWの消費電力となる。
- CUTIEアクセラレータは1036 TOp/s/Wのエネルギー効率を達成し、最先端技術を2倍上回り、3値化ネットワークを用いたCIFAR10で[5]と比較して2%高い精度を達成する。
- PULPクラスタは、DroNetベースのナビゲーションで1秒間に28インフェレンスを実現し、80mWの消費電力で、MAC-LDのサポートにより、同じ周波数でVega [7]より1.66倍高いスループットを達成する。
- 4ビットおよび2ビット畳み込みにおいて、KrakenのSIMD拡張は、SoAのRISC-Vクラスターよりも2.6倍以上のエネルギー効率を達成する。
- SNEは6層CSNNでIBM-DVSGestureで92%の精度を達成し、最先端技術よりも1.7倍高いエネルギー効率を実現する。
- Krakenの非一様アーキテクチャにより、1Wの電力制限内に、光流速処理(SNE)、物体検出(CUTIE)、障害物回避(PULP)の並列実行が可能となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。