[論文レビュー] Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation
Hyper-YOLOはハイパーグラフ計算フレームワーク(HGC-SCS)をYOLOネックに導入し、跨レベル・跨位置の高次特徴相互作用のためのHyperC2Netを形成することで、COCOのAPを最先端のYOLO派生より改善する。
We introduce Hyper-YOLO, a new object detection method that integrates hypergraph computations to capture the complex high-order correlations among visual features. Traditional YOLO models, while powerful, have limitations in their neck designs that restrict the integration of cross-level features and the exploitation of high-order feature interrelationships. To address these challenges, we propose the Hypergraph Computation Empowered Semantic Collecting and Scattering (HGC-SCS) framework, which transposes visual feature maps into a semantic space and constructs a hypergraph for high-order message propagation. This enables the model to acquire both semantic and structural information, advancing beyond conventional feature-focused learning. Hyper-YOLO incorporates the proposed Mixed Aggregation Network (MANet) in its backbone for enhanced feature extraction and introduces the Hypergraph-Based Cross-Level and Cross-Position Representation Network (HyperC2Net) in its neck. HyperC2Net operates across five scales and breaks free from traditional grid structures, allowing for sophisticated high-order interactions across levels and positions. This synergy of components positions Hyper-YOLO as a state-of-the-art architecture in various scale models, as evidenced by its superior performance on the COCO dataset. Specifically, Hyper-YOLO-N significantly outperforms the advanced YOLOv8-N and YOLOv9-T with 12\% $\text{AP}^{val}$ and 9\% $\text{AP}^{val}$ improvements. The source codes are at ttps://github.com/iMoonLab/Hyper-YOLO.
研究の動機と目的
- 従来のYOLOネック設計の跨レベルおよび跨位置特徴融合における制約を動機づけ、対処する。
- ハイパーグラフ(HGC-SCS)を用いて視覚特徴間の高次関係をモデル化するフレームワークを開発する。
- マルチスケール特徴融合を強化するため、バックボーンブロック(MANet)とハイパーグラフベースのネック(HyperC2Net)を設計する。
- Hyper-YOLOの派生モデル、特にHyper-YOLO-Nが、現代のYOLOモデルに対してデータセットCOCO上で最先端の性能を達成することを示す。
提案手法
- HGC-SCSを提案する:バックボーンの特徴を収集し、意味空間ハイパーグラフを構築し、高次学習のためにハイパーグラフ畳み込みを行い、強化された特徴を入力へ散布する。
- 5つのバックボーンレベルに跨る、クロスレベル・クロスポジションの高次伝播を可能にするハイパーグラフベースのネックとしてHyperC2Netを導入する。
- バックボーンにMixed Aggregation Network (MANet)を組み込み、1x1パススルー、深さ方向分離畳み込み、およびC2f風ブロックを組み合わせてより豊かな特徴抽出を実現する。
- Hyper-YOLOをHyperC2NetネックとMANetバックボーンで実体化し、5スケールで動作させ、格子制約を超えた高次相互作用を実現する。
- 検出用に特化したHGC-SCSフレームワークの実体化(HyperC2Net)を提供し、混合バックボーン特徴の融合を詳述する。
実験結果
リサーチクエスチョン
- RQ1ハイパーグラフベースの高次メッセージパッシングは、物体検出の跨レベル・跨位置の特徴表現を改善できるか。
- RQ2ネック(HGC-SCS)をHyperC2Netとして統合すると、PANetやGold-YOLOといったYOLOベース検出器の伝統的なネックより測定可能な利得を生むか。
- RQ3Mixed Aggregation Networkがバックボーン特徴抽出と最終検出精度に与える影響は。
- RQ4Hyper-YOLOはCOCOのスケール全体でYOLOv8、YOLOv9、およびGold-YOLOと比べてどのように性能を示すか。
- RQ5neckに高次学習を適用する際のパラメータ数、FLOPs、精度のトレードオフは。
主な発見
| 方法 | 入力サイズ | AP^val | AP^val_50 | パラメータ数 | FLOPs | FPS[bs=1] | FPS[bs=32] | レイテンシー[bs=1] |
|---|---|---|---|---|---|---|---|---|
| Hyper-YOLO-T | 640 | 38.5% | 54.5% | 3.1 M | 9.6 G | 404/692 † | 644/1029 † | 2.5/1.4 † ms |
| Hyper-YOLO-N | 640 | 41.8% | 58.3% | 4.0 M | 11.4 G | 364/554 † | 460/710 † | 2.7/1.8 † ms |
| Hyper-YOLO-S | 640 | 48.0% | 65.1% | 14.8 M | 39.0 G | 212/301 † | 257/343 † | 4.7/3.3 † ms |
| Hyper-YOLO-M | 640 | 52.0% | 69.0% | 33.3 M | 103.3 G | 111/145 † | 132/154 † | 9.0/6.9 † ms |
| Hyper-YOLO-L | 640 | 53.8% | 70.9% | 56.3 M | 211.0 G | 73/97 † | 83/105 † | 13.7/10.3 † ms |
| YOLOv8-N | 640 | 37.3% | 52.6% | 3.2 M | 8.7 G | 713 | 1094 | 1.4 ms |
| YOLOv9-T | 640 | 38.3% | 53.1% | 2.0 M | 7.7 G | 420 | 796 | 2.4 ms |
- Hyper-YOLO系はCOCO Val2017のスケールを横断して他のYOLOモデルを上回る。例えばHyper-YOLO-NはYOLOv8-NおよびYOLOv9-TよりAPvalが高い。
- Nスケールで、Hyper-YOLOはYOLOv8-NよりAPvalを12%、YOLOv9-Tより9%向上させ、パラメータ数は競争力があるか減少している。
- MANetは同じネック下でYOLOv8-SのC2fと比較してバックボーン性能を一貫して向上させ、混合集約の利点を示す。
- HyperC2Netはハイパーグラフ畳み込みによる跨レベル・跨位置の高次相互作用を可能にし、PANetやGold-YOLOのgather-distributeネックなどの格子制約付き融合を上回る。
- スケールを横断して、Hyper-YOLOのYOLOv8/YOLOv9に対する改善は、モデルサイズが小さい場合により大きく、特徴抽出能力が限られるときの高次学習の価値を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。