[論文レビュー] Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection
MAF-YOLOを導入し、プラグアンドプレイ可能なMAFPNネック、RepHELANエンコーダ、GHKSを備え、マルチスケール特徴融合と受容野を強化。COCOで3.8Mパラメータ、42.4 APを達成。
Due to the effective performance of multi-scale feature fusion, Path Aggregation FPN (PAFPN) is widely employed in YOLO detectors. However, it cannot efficiently and adaptively integrate high-level semantic information with low-level spatial information simultaneously. We propose a new model named MAF-YOLO in this paper, which is a novel object detection framework with a versatile neck named Multi-Branch Auxiliary FPN (MAFPN). Within MAFPN, the Superficial Assisted Fusion (SAF) module is designed to combine the output of the backbone with the neck, preserving an optimal level of shallow information to facilitate subsequent learning. Meanwhile, the Advanced Assisted Fusion (AAF) module deeply embedded within the neck conveys a more diverse range of gradient information to the output layer. Furthermore, our proposed Re-parameterized Heterogeneous Efficient Layer Aggregation Network (RepHELAN) module ensures that both the overall model architecture and convolutional design embrace the utilization of heterogeneous large convolution kernels. Therefore, this guarantees the preservation of information related to small targets while simultaneously achieving the multi-scale receptive field. Finally, taking the nano version of MAF-YOLO for example, it can achieve 42.4% AP on COCO with only 3.76M learnable parameters and 10.51G FLOPs, and approximately outperforms YOLOv8n by about 5.1%. The source code of this work is available at: https://github.com/yang-0201/MAF-YOLO.
研究の動機と目的
- 従来のYOLOの特徴融合の制限を克服し、小さな物体のために shallow な空間情報を保持する。
- SAFおよびAAFモジュールを備えたプラグアンドプレイネック(MAFPN)を通じてマルチスケール特徴相互作用を強化する。
- 再パラメータ化された異種大カーネルを用いたRepHELANで受容野を効率的に拡張する。
- GHKSによって解像度間で受容野を動的に拡大する。
- 軽量モデルと既存のリアルタイム検出器と比較してMS COCOで高い性能を示す。
提案手法
- SAFを用いたMAFPNネックを提案し、双方向接続を通じて浅いバックボーン情報を保持する。
- 出力層で勾配情報とマルチスケール融合を豊かにするAdvanced Assisted Fusion(AAF)を導入する。
- マルチスケール特徴抽出のために再パラメータ化された異種深さ方向畳み込みを用いるRepHELANを設計する。
- バックボーンとネック全体のカーネルサイズを適応させ、より大きな有効受容野を得るためにGlobal Heterogeneous Kernel Selection(GHKS)を適用する。
- トレーニング時に並列大カーネルを用い推論時に単一カーネルへ統合する7x7 RepHDWConvを使用して速度を維持する。
- YOLOv6ヘッダーの3x3畳み込み1組を軽量なRepHDWConvに置換し、COCOでスクラッチから訓練する。
実験結果
リサーチクエスチョン
- RQ1リアルタイム検出器において、マルチブランチの補助ネックは高レベルの意味情報と低レベルの空間情報の統合をどのように改善できるか?
- RQ2再パラメータ化された異種畳み込みがマルチスケール特徴表現と推論速度に与える影響は?
- RQ3適応的なグローバルカーネル選択は、パラメータを大幅に増やすことなく、小〜大の物体検出を向上させられるか?
- RQ4MAF-YOLOはYOLOベースのアーキテクチャ以外の検出器にもプラグアンドプレイのネックとして一般化するか?
主な発見
| モデル | AP | AP50 | APs | APm | APl | パラメータ | FLOPs | エポック数 |
|---|---|---|---|---|---|---|---|---|
| MAF-YOLOn | 42.4 | 58.9 | 22.0 | 46.5 | 59.4 | 3.8M | 10.5G | 300 |
- SAFとAAFを組み合わせたMAFPNは、ベースラインPAFPNよりAPと小さな物体の性能で改善をもたらす。
- RepHELANのRepHConvは3.8Mパラメータと10.5G FLOPsでCOCO nano設定時に42.4 APを達成し、いくつかのリアルタイム検出器より優れている。
- GHKSは解像度間でネットワークの有効な受容野を動的に拡大し、精度向上に寄与する。
- MAF-YOLOn(nano)は42.4 AP、58.9 AP50、22.0 APs、46.5 APm、59.4 APl、3.8Mパラメータ、10.5G FLOPsで、YOLOv8nより約5.1%高いAPを達成。
- YOLOv8nでPAFPNをMAFPNに置換すると、エポック数を減らしつつ約2%のAP向上。
- MAF-YOLOはパラメータとFLOPの効率性に優れつつ、最新のリアルタイム検出器と比較してCOCO性能が高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。