QUICK REVIEW

[論文レビュー] In-network Neural Networks

Giuseppe Siracusano, Roberto Bifulco|arXiv (Cornell University)|Jan 17, 2018

Advanced Memory and Neural Computing参考文献 14被引用数 34

ひとこと要約

この論文では、XNOR、POPCNT、およびビット操作といった既存のハードウェアプリミティブを活用することで、プログラマブルスイッチングチップ上でのバイナリニューラルネットワーク（BNNs）を用いたネットワーク内推論を可能にするN2Netを提案している。BNNsは、14個のパイプライン素子のみで、従来のルックアップテーブルと比較してメモリ使用量を削減しながら、ラインレート（最大9.6億ニューロン/秒）で効率的に実行可能であることを示している。

ABSTRACT

We present N2Net, a system that implements binary neural networks using commodity switching chips deployed in network switches and routers. Our system shows that these devices can run simple neural network models, whose input is encoded in the network packets' header, at packet processing speeds (billions of packets per second). Furthermore, our experience highlights that switching chips could support even more complex models, provided that some minor and cheap modifications to the chip's design are applied. We believe N2Net provides an interesting building block for future end-to-end networked systems.

研究の動機と目的

パケット分類の高スループット化を実現するため、ニューラルネットワークをネットワークスイッチングチップ内に直接展開する可能性を検討すること。
大容量でメモリを消費するルックアップテーブルに依存するのを減らすために、コンパクトで計算負荷の高いBNNモデルに置き換えること。
ビット単位の論理演算やPOPCNTといった、既存のプログラマブルスイッチングチップのプリミティブを活用して、ラインレートでBNN推論を実現すること。
RMTベースのスイッチングチップにBNNを展開するためのP4コードを自動生成するコンパイラを開発すること。
最小限で低コストな回路部品（例：ネイティブPOPCNT）を追加することで、BNNの効率性とスケーラビリティが著しく向上することを示すこと。

提案手法

N2Netは、XNOR、AND、シフト演算などのビット単位の演算とPOPCNTを用いて、バイナリニューラルネットワーク（BNNs）の順伝播を実装している。
5段階のパイプラインを採用：活性化値の複製、XNORと複製、木構造アルゴリズムを用いた並列POPCNT計算、符号活性化、出力ベクトルへの結果の畳み込み。
BNNレイヤーを、パケットヘッダーベクトル（PHV）上でP4で定義されたアクションにマッピングし、RMTチップの32個のパイプライン素子と512バイトのPHV容量を活用している。
カスタムコンパイラがBNNモデルの記述（レイヤー、ニューロン）からP4コードを自動生成し、推論用にパイプラインを自動構成する。
RISCプロセッサを介して複数のニューロンを同時に処理できるように、活性化ベクトルを複製することで並列性を活用している。
実行時におけるメモリアクセスのオーバーヘッドを回避するため、SRAMに事前に設定されたBNN重みを前提としている（BrainWaveのアプローチに類似）。

実験結果

リサーチクエスチョン

RQ1既存のハードウェアプリミティブのみを用いて、商用のプログラマブルスイッチングチップ上でバイナリニューラルネットワークを効率的に実行できるか？
RQ2パケット分類において、従来のルックアップテーブルと比較して、BNNsがどれほどメモリ使用量を削減できるか？
RQ3ラインレートでのBNN推論をサポートするために、どの程度のパイプライン素子とPHVリソースが必要か？
RQ4最小限で低面積のハードウェア拡張（例：ネイティブPOPCNT）を追加することで、どの程度のパフォーマンス向上が得られるか？
RQ5N2Netは、DoS保護やロードバランシングなどの実世界のワークロードに対して、スケーラブルかつ高スループットなネットワーク内推論を可能にできるか？

主な発見

N2Netは、2048ビットの活性化ベクトルを用いて、最大9.6億ニューロン/秒を処理でき、RMTスイッチングチップ上でラインレート性能を達成している。
32ビットの活性化ベクトルを用いる場合、14個のパイプライン素子のみで最大64個のニューロンを並列に処理でき、1秒間に9.6億の2層BNNを処理可能である。
ニューロン1つあたりのパイプライン素子数は、3 + 2log₂(N) であり、Nは活性化ベクトルのサイズで、2048ビットベクトルでは最大25素子に達する。
ネイティブPOPCNTプリミティブを追加することで、素子数を12〜25個から5〜10個に削減でき、ハードウェアコストを低減するとともに、並列ニューロンの処理能力を2倍に増加できる。
BNN用の計算回路部は、チップ総面積の3〜5％未満で収まり、コスト効果の高い拡張手段である。
このアプローチにより、大規模なパケットフィルタリングやアプリケーション指向のロードバランシングなどのユースケースに適した、コンパクトでメモリ効率の良い分類器の展開が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。