[논문 리뷰] Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection
소개 MAF-YOLO와 플러그 앤 플레이 MAFPN 넥, RepHELAN 인코더, 및 GHKS로 다중 스케일 특성 융합 및 수용 영역을 향상시켜 COCO에서 3.8M 파라미터로 42.4 AP 달성.
Due to the effective performance of multi-scale feature fusion, Path Aggregation FPN (PAFPN) is widely employed in YOLO detectors. However, it cannot efficiently and adaptively integrate high-level semantic information with low-level spatial information simultaneously. We propose a new model named MAF-YOLO in this paper, which is a novel object detection framework with a versatile neck named Multi-Branch Auxiliary FPN (MAFPN). Within MAFPN, the Superficial Assisted Fusion (SAF) module is designed to combine the output of the backbone with the neck, preserving an optimal level of shallow information to facilitate subsequent learning. Meanwhile, the Advanced Assisted Fusion (AAF) module deeply embedded within the neck conveys a more diverse range of gradient information to the output layer. Furthermore, our proposed Re-parameterized Heterogeneous Efficient Layer Aggregation Network (RepHELAN) module ensures that both the overall model architecture and convolutional design embrace the utilization of heterogeneous large convolution kernels. Therefore, this guarantees the preservation of information related to small targets while simultaneously achieving the multi-scale receptive field. Finally, taking the nano version of MAF-YOLO for example, it can achieve 42.4% AP on COCO with only 3.76M learnable parameters and 10.51G FLOPs, and approximately outperforms YOLOv8n by about 5.1%. The source code of this work is available at: https://github.com/yang-0201/MAF-YOLO.
연구 동기 및 목표
- 얕은 공간 정보를 보존하여 작은 물체에 대한 전통적인 YOLO 피처 융합의 한계를 해결한다.
- SAF 및 AAF 모듈이 있는 플러그 앤 플레이 넥(MAFPN)을 통해 다중 스케일 피처 상호작용을 향상시킨다.
- 재 매개변수화된 이종 대형 커널로 RepHELAN을 통해 수용 영역을 효율적으로 확장한다.
- GHKS로 다양한 해상도에서 수용 영역을 동적으로 확장한다.
- 경량 모델이 기존의 실시간 감지기와 비교했을 때 MS COCO에서 강력한 성능을 보여준다.
제안 방법
- 양방향 연결을 통해 얕은 백본 정보를 보존하기 위한 Superficial Assisted Fusion(SAF)으로 MAFPN 넥을 제안한다.
- 출력 계층에서 그래디언트 정보와 다중 스케일 융합을 풍부하게 하기 위한 Advanced Assisted Fusion(AAF)을 도입한다.
- 다중 스케일 피처 추출을 위해 재 매개변수화된 이종 깊이별 컨볼루션을 사용하는 RepHELAN을 설계한다.
- 더 큰 효과적 수용 영역을 위해 백본과 넥 전반에 걸쳐 커널 크기를 조정하는 Global Heterogeneous Kernel Selection(GHKS)을 적용한다.
- 7x7 RepHDWConv를 훈련 시 병렬 큰 커널로 사용하고 추론 시 단일 커널로 병합하여 속도를 유지한다.
- YOLOv6 헤더의 3x3 컨볼루션 한 쌍을 경량 RepHDWConv로 교체하고 COCO에서 처음부터 학습한다.
실험 결과
연구 질문
- RQ1실시간 감지기에서 다중 분기 보조 넥이 고수준 의미 정보와 저해상도 공간 정보를 얼마나 잘 통합하는가?
- RQ2재 매개변수화된 이종 컨볼루션이 다중 스케일 피처 표현 및 추론 속도에 미치는 영향은 무엇인가?
- RQ3적응적 글로벌 커널 선택이 매개변수를 크게 증가시키지 않으면서 작은, 중간, 큰 물체에 걸친 감지를 향상시킬 수 있는가?
- RQ4MAF-YOLO가 YOLO 기반 아키텍처를 넘어 다른 DETECTOR에 대한 플러그 앤 플레이 넥으로 일반화되는가?
주요 결과
| 모델 | AP | AP50 | APs | APm | APl | 매개변수 | FLOPs | 에포크 |
|---|---|---|---|---|---|---|---|---|
| MAF-YOLOn | 42.4 | 58.9 | 22.0 | 46.5 | 59.4 | 3.8M | 10.5G | 300 |
- SAF와 AAF가 결합된 MAFPN은 기본 PAFPN 대비 AP 및 소형 객체 성능에서 개선을 제공한다.
- RepHELAN의 RepHConv은 COCO nano 설정에서 3.8M 파라미터와 10.5G FLOPs로 42.4 AP를 달성하며 여러 실시간 감지기를 능가한다.
- GHKS는 해상도에 따라 네트워크의 효과적 수용 영역을 동적으로 확장하여 정확도 향상에 기여한다.
- MAF-YOLOn (nano)는 42.4 AP, 58.9 AP50, 22.0 APs, 46.5 APm, 59.4 APl를 3.8M 파라미터와 10.5G FLOPs로 달성하며 YOLOv8n보다 약 5.1% 포인트 더 높은 AP를 보인다.
- YOLOv8n에서 PAFPN을 MAFPN으로 대체하면 에포크 수를 줄이면서 약 2%의 AP 향상을 얻는다.
- MAF-YOLO는 최신 실시간 감지기 대비 매개변수 및 FLOP 효율성이 우수하면서 COCO 성능도 강력하게 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.