[논문 리뷰] YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
YOLO-MS는 다중 스케일 특징 표현을 향상시키기 위해 MS-Block과 이질적인 커널 선택 프로토콜을 도입하여 실시간 탐지에 강한 정확도와 낮은 파라미터/연산량을 달성하고, 다른 YOLO 모델의 플러그 앤 플레이 모듈로 작동합니다.
We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how multi-branch features of the basic block and convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can significantly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our work, we train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7, RTMDet, and YOLO-v8. Taking the XS version of YOLO-MS as an example, it can achieve an AP score of 42+% on MS COCO, which is about 2% higher than RTMDet with the same model size. Furthermore, our work can also serve as a plug-and-play module for other YOLO models. Typically, our method significantly advances the APs, APl, and AP of YOLOv8-N from 18%+, 52%+, and 37%+ to 20%+, 55%+, and 40%+, respectively, with even fewer parameters and MACs. Code and trained models are publicly available at https://github.com/FishAndWasabi/YOLO-MS. We also provide the Jittor version at https://github.com/NK-JittorCV/nk-yolo.
연구 동기 및 목표
- 실시간 탐지기를 위한 향상된 다중 스케일 특징 표현의 동기를 부여한다.
- 로컬(MS-Block) 및 글로벌(다양한 커널 크기) 관점을 모두 활용하여 다중 스케일 특징을 풍부하게 만드는 인코더를 설계한다.
- 처음부터 학습된 상태의 MS COCO에서 YOLO-MS를 평가하고 최신 실시간 탐지기들과 비교한다.
- 이질적 커널 사이징이 효율성을 유지하면서 스케일 전반에 걸친 탐지 성능을 향상시킨다는 것을 보여준다.
제안 방법
- Res2Net에서 영감을 얻은 계층적 특징 융합 전략과 대역폭 축소를 역전시킨 인버티드 보틀넥을 도입하여 대형 커널 컨볼루션을 효율적으로 가능하게 한다.
- 인코더 계층에 [3,5,7,9] 커널 크기를 할당하는 이질적 커널 선택(HKS) 프로토콜을 제안하여 얕은 단계의 효율성을 해치지 않으면서 깊은 단계의 수용장을 확장한다.
- 표준 3x3 컨볼루션을 인버티드 보틀넥으로 교체하여 계산적으로 가볍게 대형 커널을 가능하게 한다.
- 다운샘플링이 있는 4단 백본, SPP 블록, PAFPN 네크를 활용하여 다중 스케일 특징을 융합한다.
- COCO에서 처음부터 학습된 채널 수와 파라미터 수가 증가하는 세 가지 YOLO-MS 변형(XS, S, 그리고 풀 버전)을 제공한다.
실험 결과
연구 질문
- RQ1MS-Block이 있는 다중 스케일 인코더가 실시간 환경에서 작은 객체, 중간 객체, 큰 객체 전반의 탐지를 향상시킬 수 있는가?
- RQ2인코더 계층 전반에 걸친 이질적으로 커널 크기를 조정하는(HKS) 방식이 동일한 커널보다 정확도와 속도 간의 더 나은 트레이드오프를 제공하는가?
- RQ3MS-Block의 심도, 채널 확장 비율, 주의 메커니즘이 성능과 추론 속도에 미치는 영향은 어떠한가?
- RQ4YOLO-MS가 다른 YOLO 아키텍처에 플러그인 모듈로 얼마나 잘 일반화되는가?
주요 결과
- YOLO-MS-XS는 약 4.5M 파라미터와 약 8.7 GFLOPs를 달성하며 COCO에서 AP가 43 이상이다.
- HKS는 균일한 작은 커널에 비해 깊은 단계의 수용장을 더 크게 하면서 속도 저하를 최소화한다.
- MS-Block은 적절한 채널 확장과 세 가지 분기 구조를 가진 MS-Block은 융합되지 않은 변형들에 비해 AP를 약 1.2–1.6포인트 향상시킨다.
- PAFPN-MS와 MS-Block의 통합은 일부 기준선에 비해 파라미터 및 FLOPs를 줄이면서 AP를 향상시킨다.
- 다른 YOLO 모델(YOLOv6, YOLOv8 등)에 MS-Block를 적용하면 파라미터/ FLOPs를 줄이면서 AP가 크게 증가한다.
- 이 방법은 강력한 속도-정확도 트레이드오프를 지원하고 실시간 탐지를 위한 강건한 다중 스케일 특징 학습을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.