Skip to main content
QUICK REVIEW

[論文レビュー] Embedded Graph Convolutional Networks for Real-Time Event Data Processing on SoC FPGAs

Kamil Jeziorek, Piotr Wzorek|arXiv (Cornell University)|Jun 11, 2024
Graph Theory and Algorithms被引用数 5
ひとこと要約

本論文は、SoC FPGA上でのリアルタイムイベントデータ処理のためのPointNet++風グラフ畳み込みネットワークのハードウェア認識最適化を提案し、モデルサイズを顕著に削減しつつ精度低下は抑え、4.47 msの遅延で13.3 MEPSのスループットを達成する。

ABSTRACT

The utilisation of event cameras represents an important and swiftly evolving trend aimed at addressing the constraints of traditional video systems. Particularly within the automotive domain, these cameras find significant relevance for their integration into embedded real-time systems due to lower latency and energy consumption. One effective approach to ensure the necessary throughput and latency for event processing is through the utilisation of graph convolutional networks (GCNs). In this study, we introduce a custom EFGCN (Event-based FPGA-accelerated Graph Convolutional Network) designed with a series of hardware-aware optimisations tailored for PointNetConv, a graph convolution designed for point cloud processing. The proposed techniques result in up to 100-fold reduction in model size compared to Asynchronous Event-based GNN (AEGNN), one of the most recent works in the field, with a relatively small decrease in accuracy (2.9% for the N-Caltech101 classification task, 2.2% for the N-Cars classification task), thus following the TinyML trend. We implemented EFGCN on a ZCU104 SoC FPGA platform without any external memory resources, achieving a throughput of 13.3 million events per second (MEPS) and real-time partially asynchronous processing with low latency. Our approach achieves state-of-the-art performance across multiple event-based classification benchmarks while remaining highly scalable, customisable and resource-efficient. We publish both software and hardware source code in an open repository: https://github.com/vision-agh/gcnn-dvs-fpga

研究の動機と目的

  • 組込みFPGAプラットフォーム上で非同期イベントカメラデータのエネルギー効率が高くリアルタイム処理を実現する動機付けと実現方法の提示。
  • スパースで動的なイベントグラフに適したPointNet++風GCNの適応と最適化。
  • 固定遅延と既知スループットを持つZCU104 SoC FPGA上でのエンドツーエンドのハードウェアとソフトウェアの共設計の実演。
  • 複数のイベントベースデータセットで100倍超のモデルサイズ削減を、許容できる精度低下とともに実現することの実証。

提案手法

  • 非同期イベントストリームから半径ベースのエッジを構築するハードウェア認識グラフ生成器を開発。
  • グラフ上での最大プーリングを用いたPointNet++風グラフ畳み込みと、モデル削減のための三つのMaxPool層を採用。
  • FPGAの制約に合わせた8ビット重みと32ビットバイアスを用いた量子化認識訓練。
  • エッジ作成のための半径R内の近傍探索とFPGAに適した固定小数点実装を使用。
  • 4つのイベントベースデータセット(N-Cars, N-Caltech101, CIFAR10-DVS, MNIST-DVS)で評価し、関連するGNNベースのイベント処理手法と比較。
Figure 1 : Overview of the proposed hardware implementation of graph convolutional networks on FPGAs specifically adapted for event data processing. The asynchronous event stream, represented as a point cloud, is received in the FPGA, where it is used to create a graph, which is then processed using
Figure 1 : Overview of the proposed hardware implementation of graph convolutional networks on FPGAs specifically adapted for event data processing. The asynchronous event stream, represented as a point cloud, is received in the FPGA, where it is used to create a graph, which is then processed using

実験結果

リサーチクエスチョン

  • RQ1FPGA上のイベントストリーム向けのハードウェア認識GCN設計は、低遅延でリアルタイムスループットを達成できるか。
  • RQ2標準のイベントベース分類ベンチマークにおける厳しいモデルサイズ削減が精度にどのような影響を与えるか。
  • RQ3組み込みハードウェアでのグラフ構築における半径設定のトレードオフ(R=3対R=5)はどうなるか。
  • RQ4イベントデータから得られる動的・非同期更新グラフに対してエンドツーエンドのFPGA加速が実現可能か。

主な発見

ModelRepresentationN-CarsN-Caltech101CIFAR10-DVSMNIST-DVSSize [MB]Param [M]
EV-VGCNNボクセル0.9530.7480.670-3.200.84
VMV-GCNボクセル0.9320.7780.690-3.280.86
VMST-Netボクセル0.9440.8220.753-3.610.95
G-CNNsグラフ0.9020.6300.5150.97418.814.93
RG-CNNsグラフ0.9140.6570.5400.98619.465.10
NvS-Sグラフ0.9150.6700.6020.986--
EvS-Sグラフ0.9310.7610.6800.991--
AEGNNグラフ0.9450.668--83.3121.84
OAEGNN_R=3グラフ0.9030.6010.5020.9110.820.86
OAEGNN_R=5グラフ0.9280.6450.5410.9420.820.86
EFGCN_R=3グラフ0.8530.5760.4780.8920.400.42
EFGCN_R=5グラフ0.8960.6190.4980.9040.400.42
  • ZCU104 FPGAプラットフォームで最大13.3 MEPSのスループットと4.47 msの遅延を達成。
  • 提案されたEFGCNファミリはAEGNNと比較して100倍を超えるモデルサイズ削減と大幅なメモリ効率を実現。
  • OAEGNNは、複数データセット(例:N-Cars、N-Caltech101、CIFAR10-DVS、MNIST-DVS)で、より小さなモデルでも競争力のある精度を示す。
  • 量子化認識訓練により、量子化後の精度低下を最小限に抑えつつ8ビット重みと32ビットバイアスを実現。
  • 半径ベースのエッジとハードウェアに優しいNMベースの近傍探索を用いたグラフ構築は、非同期・即時更新を可能にする。
  • 本アプローチは、リアルタイムイベントデータ向けのSoC FPGA上でのGCNのエンドツーエンドハードウェAcceleratorとして初の試みとして位置づけられる。
Figure 2 : Schematic of the EFGCN network hardware modules for $R=3$ and N-Cars classification (the asynchronous part – violet and the synchronous – green). The characteristics of data transferred between the selected modules are highlighted (yellow blocks).
Figure 2 : Schematic of the EFGCN network hardware modules for $R=3$ and N-Cars classification (the asynchronous part – violet and the synchronous – green). The characteristics of data transferred between the selected modules are highlighted (yellow blocks).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。