QUICK REVIEW

[論文レビュー] EfficientRep:An Efficient Repvgg-style ConvNets with Hardware-aware Neural Network Design

Kaiheng Weng, Xiangxiang Chu|arXiv (Cornell University)|Feb 1, 2023

Advanced Neural Network Applications被引用数 23

ひとこと要約

EfficientRep は hardware-aware RepVGGスタイルのバックボーンと CSP 増強ブロック(Bep および BepC3) を共同設計し、モデルサイズ間で YOLOv6 の精度-速度のトレードオフを改善する。

ABSTRACT

We present a hardware-efficient architecture of convolutional neural network, which has a repvgg-like architecture. Flops or parameters are traditional metrics to evaluate the efficiency of networks which are not sensitive to hardware including computing ability and memory bandwidth. Thus, how to design a neural network to efficiently use the computing ability and memory bandwidth of hardware is a critical problem. This paper proposes a method how to design hardware-aware neural network. Based on this method, we designed EfficientRep series convolutional networks, which are high-computation hardware(e.g. GPU) friendly and applied in YOLOv6 object detection framework. YOLOv6 has published YOLOv6N/YOLOv6S/YOLOv6M/YOLOv6L models in v1 and v2 versions.

研究の動機と目的

従来の FLOPs/パラメータ数だけではハードウェア効率（メモリ帯域幅と I/O）を捉えられないことを動機づける。
GPU 上での計算とメモリアクセスをバランスさせるハードウェア認識型のニューラルネット設計原則を提案する。
RepVGGスタイルのトレーニング時多分岐・推論時単一分岐を含む EfficientRep ファミリーと CSP ベースの強化を開発する。
モデル変種（N/S/M/L）を横断する YOLOv6 で精度-速度のトレードオフの改善を実証する。
NVIDIA GPU でのスピード指標を用いた MS COCO の評価により、ハードウェア認識設計の効果を検証する。

提案手法

トレーニング時多分岐と推論時単一分岐の再設計を伴う RepVGG-スタイルの畳み込みを採用する。
Bep ユニットを複数分岐でよりハードウェア効率の高い基本ユニットとして導入する。
CSPBep バックボーンと CSPRepPAN ネックを設計し、精度と推論速度のバランスをとる。
モデルサイズに応じたハイブリッドな単一分岐/多分岐戦略を備えた YOLOv6-v2 用の CSPBep/CSPRepPAN 変種を作成する。
深さと幅の乗数を用いたスケール戦略を適用して複数のモデルサイズを生成する。
MS COCO 上で FPS 測定（bs=1, bs=32）と AP を主要指標として評価する。

実験結果

リサーチクエスチョン

RQ1FLOPs/パラメータを超える GPU 効率を、ハードウェア認識設計はどのように改善できるか？
RQ2大規模モデルでより良い単一分岐推論を維持しつつ、RepVGG-スタイルの多分岐トレーニングは維持できるか？
RQ3Bep および CSP ベースのブロックは、標準の RepVGG-スタイル設計よりも優れた精度-速度のトレードオフを提供するか？
RQ4YOLOv6 におけるモデルサイズ全体で最適なハイブリッド戦略（単一分岐 vs 多分岐）は何か？
RQ5提案された EfficientRep 変種は、標準の物体検出ベンチマークで最先端の検出器と比較してどのように性能を示すか？

主な発見

Model	Input Size	AP val	FPS bs=1	FPS bs=32	Latency bs=1
YOLOv5-N [ 16 ]	640	28.0%	602	735	1.7 ms
YOLOv5-S [ 16 ]	640	37.4%	376	444	2.7 ms
YOLOv5-M [ 16 ]	640	45.4%	182	209	5.5 ms
YOLOv5-L [ 16 ]	640	49.0%	113	126	8.8 ms
YOLOX-Tiny [ 18 ]	416	32.8%	717	1143	1.4 ms
YOLOX-S [ 18 ]	640	40.5%	333	396	3.0 ms
YOLOX-M [ 18 ]	640	46.9%	155	179	6.4 ms
YOLOX-L [ 18 ]	640	49.7%	94	103	10.6 ms
PPYOLOE-S [ 17 ]	640	43.1%	327	419	3.1 ms
PPYOLOE-M [ 17 ]	640	49.0%	152	189	6.6 ms
PPYOLOE-L [ 17 ]	640	51.4%	101	127	10.1 ms
YOvLv7-Tiny [ 19 ]	416	33.3%	787	1196	1.3 ms
YOLOv7-TIny [ 19 ]	640	37.4%	424	519	2.4 ms
YOLOv7 [ 19 ]	640	51.2%	110	122	9.0 ms
YOLOv6-N	640	35.9%	802	1234	1.2 ms
YOLOv6-S	640	43.5%	358	495	2.8 ms
YOLOv6-M	640	49.5%	179	233	5.6 ms
YOLOv6-L	640	51.7%	113	149	8.8 ms

EfficientRep バックボーンと Rep-PAN ネックは GPU へ優しく、YOLOv6-v1 で精度-速度のトレードオフを改善する。
純粋な RepVGG-スタイルモデル（例: YOLOv6-M）は、速度と精度の点で BepC3/CSP 構造と比較して劣る。
CSP-スタイル統合を用いた Bep ユニット（BepC3）は、より大きなモデルでバランスの取れた精度と推論速度をもたらす。
CSPBep と CSPRepPAN は、モデルサイズを問わずより良い性能を可能にする効果的なハイブリッド設計を実現する。
COCO における実証結果は、 EfficientRep 変種を使用すると複数の検出器で競争力のある AP とより高い FPS を示す。
本論文は、NVIDIA GPUs 上での速度と精度を比較する多数のモデルを詳細な表で報告する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。