QUICK REVIEW

[논문 리뷰] YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

Yumin Chen, Xinbin Yuan|arXiv (Cornell University)|2023. 08. 10.

Advanced Neural Network Applications인용 수 23

한 줄 요약

YOLO-MS는 다중 스케일 특징 표현을 향상시키기 위해 MS-Block과 이질적인 커널 선택 프로토콜을 도입하여 실시간 탐지에 강한 정확도와 낮은 파라미터/연산량을 달성하고, 다른 YOLO 모델의 플러그 앤 플레이 모듈로 작동합니다.

ABSTRACT

We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how multi-branch features of the basic block and convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can significantly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our work, we train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7, RTMDet, and YOLO-v8. Taking the XS version of YOLO-MS as an example, it can achieve an AP score of 42+% on MS COCO, which is about 2% higher than RTMDet with the same model size. Furthermore, our work can also serve as a plug-and-play module for other YOLO models. Typically, our method significantly advances the APs, APl, and AP of YOLOv8-N from 18%+, 52%+, and 37%+ to 20%+, 55%+, and 40%+, respectively, with even fewer parameters and MACs. Code and trained models are publicly available at https://github.com/FishAndWasabi/YOLO-MS. We also provide the Jittor version at https://github.com/NK-JittorCV/nk-yolo.

연구 동기 및 목표

실시간 탐지기를 위한 향상된 다중 스케일 특징 표현의 동기를 부여한다.
로컬(MS-Block) 및 글로벌(다양한 커널 크기) 관점을 모두 활용하여 다중 스케일 특징을 풍부하게 만드는 인코더를 설계한다.
처음부터 학습된 상태의 MS COCO에서 YOLO-MS를 평가하고 최신 실시간 탐지기들과 비교한다.
이질적 커널 사이징이 효율성을 유지하면서 스케일 전반에 걸친 탐지 성능을 향상시킨다는 것을 보여준다.

제안 방법

Res2Net에서 영감을 얻은 계층적 특징 융합 전략과 대역폭 축소를 역전시킨 인버티드 보틀넥을 도입하여 대형 커널 컨볼루션을 효율적으로 가능하게 한다.
인코더 계층에 [3,5,7,9] 커널 크기를 할당하는 이질적 커널 선택(HKS) 프로토콜을 제안하여 얕은 단계의 효율성을 해치지 않으면서 깊은 단계의 수용장을 확장한다.
표준 3x3 컨볼루션을 인버티드 보틀넥으로 교체하여 계산적으로 가볍게 대형 커널을 가능하게 한다.
다운샘플링이 있는 4단 백본, SPP 블록, PAFPN 네크를 활용하여 다중 스케일 특징을 융합한다.
COCO에서 처음부터 학습된 채널 수와 파라미터 수가 증가하는 세 가지 YOLO-MS 변형(XS, S, 그리고 풀 버전)을 제공한다.

실험 결과

연구 질문

RQ1MS-Block이 있는 다중 스케일 인코더가 실시간 환경에서 작은 객체, 중간 객체, 큰 객체 전반의 탐지를 향상시킬 수 있는가?
RQ2인코더 계층 전반에 걸친 이질적으로 커널 크기를 조정하는(HKS) 방식이 동일한 커널보다 정확도와 속도 간의 더 나은 트레이드오프를 제공하는가?
RQ3MS-Block의 심도, 채널 확장 비율, 주의 메커니즘이 성능과 추론 속도에 미치는 영향은 어떠한가?
RQ4YOLO-MS가 다른 YOLO 아키텍처에 플러그인 모듈로 얼마나 잘 일반화되는가?

주요 결과

YOLO-MS-XS는 약 4.5M 파라미터와 약 8.7 GFLOPs를 달성하며 COCO에서 AP가 43 이상이다.
HKS는 균일한 작은 커널에 비해 깊은 단계의 수용장을 더 크게 하면서 속도 저하를 최소화한다.
MS-Block은 적절한 채널 확장과 세 가지 분기 구조를 가진 MS-Block은 융합되지 않은 변형들에 비해 AP를 약 1.2–1.6포인트 향상시킨다.
PAFPN-MS와 MS-Block의 통합은 일부 기준선에 비해 파라미터 및 FLOPs를 줄이면서 AP를 향상시킨다.
다른 YOLO 모델(YOLOv6, YOLOv8 등)에 MS-Block를 적용하면 파라미터/ FLOPs를 줄이면서 AP가 크게 증가한다.
이 방법은 강력한 속도-정확도 트레이드오프를 지원하고 실시간 탐지를 위한 강건한 다중 스케일 특징 학습을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.