Skip to main content
QUICK REVIEW

[논문 리뷰] YOLOv3: An Incremental Improvement

Joseph Redmon, Ali Farhadi|arXiv (Cornell University)|2018. 04. 08.
Advanced Image and Video Retrieval Techniques참고 문헌 11인용 수 5,881
한 줄 요약

YOLOv3는 작은 디자인 업데이트와 더 크고 더 유능한 백본(Darknet-53)을 도입하여, AP50에서 특히 경쟁력 있는 정확도와 함께 더 빠른 탐지를 달성하면서 속도를 유지합니다.

ABSTRACT

We present some updates to YOLO! We made a bunch of little design changes to make it better. We also trained this new network that's pretty swell. It's a little bigger than last time but more accurate. It's still fast though, don't worry. At 320x320 YOLOv3 runs in 22 ms at 28.2 mAP, as accurate as SSD but three times faster. When we look at the old .5 IOU mAP detection metric YOLOv3 is quite good. It achieves 57.9 mAP@50 in 51 ms on a Titan X, compared to 57.5 mAP@50 in 198 ms by RetinaNet, similar performance but 3.8x faster. As always, all the code is online at https://pjreddie.com/yolo/

연구 동기 및 목표

  • 정확도와 속도 향상을 가져온 YOLO의 점진적 업데이트를 요약한다.
  • 새로운 백본(Darknet-53)과 다중 스케일 예측 전략을 설명한다.
  • AP50 및 mAP 유사 지표에서 RetinaNet과 SSD에 대해 YOLOv3의 성능을 비교한다.
  • 성능 향상에 실패한 실험으로부터 얻은 교훈을 설명한다.
  • 탐지 지표와 실무 배치에 대한 시사점을 논의한다.

제안 방법

  • 클러스터에서의 오프셋을 가진 4개의 좌표와 앵커 박스를 사용하여 경계 상자를 예측한다.
  • 각 실제 객체당 하나의 할당된 priors와 로지스틱 회귀를 사용한 객체성 점수를 사용한다.
  • 독립적인 다중 라벨 로지스틱 분류기로 클래스를 예측한다.
  • 특징 피라미드와 유사한 업샘플링 및 연결(concatenation)을 사용하여 세 가지 스케일에서 예측한다.
  • 잔차 연결을 가진 백본으로 Darknet-53를 도입한다.
  • Darknet 프레임워크에서 다중 스케일 학습과 표준 데이터 증가를 사용하여 학습한다.
Figure 1: We adapt this figure from the Focal Loss paper [ 9 ] . YOLOv3 runs significantly faster than other detection methods with comparable performance. Times from either an M40 or Titan X, they are basically the same GPU.
Figure 1: We adapt this figure from the Focal Loss paper [ 9 ] . YOLOv3 runs significantly faster than other detection methods with comparable performance. Times from either an M40 or Titan X, they are basically the same GPU.

실험 결과

연구 질문

  • RQ1점진적 설계 변화가 이전 버전 및 다른 검출기와 비교하여 YOLO의 속도-정확도 트레이드오프에 어떤 영향을 미치는가?
  • RQ2새로운 백본(Darknet-53)이 탐지 성능과 계산 효율성에 미치는 영향은?
  • RQ3다중 스케일 예측이 소 객체 탐지와 전체 COCO 지표를 개선하는가?
  • RQ4대체 학습 선택(예: focal loss, 다른 앵커 오프셋)이 YOLOv3 성능에 어떤 영향을 미치는가?
  • RQ5YOLOv3와 같은 검출기를 평가할 때 AP50와 COCO mean AP 지표의 한계는 무엇인가?

주요 결과

방법백본APAP50AP75AP SAP MAP L
YOLOv3 608×608Darknet-5333.057.934.418.335.441.9
  • YOLOv3는 320×320 입력에서 22 ms로 28.2 mAP를 달성하며, AP50 기준으로 RetinaNet보다 몇 배 빠르면서 SSD만큼의 정확도이다.
  • 608×608 입력에서 COCO 기준 33.0 AP, 57.9 AP50, 34.4 AP75, 18.3 AP S, 35.4 AP M, 41.9 AP L를 달성하며 RetinaNet보다 빠르고 경쟁력 있는 정확도를 유지한다.
  • Darknet-53 백본은 대략의 ResNet보다 더 적은 FLOPs로 정확도에서 최첨단 분류기와 일치하고 더 높은 FPS를 제공한다.
  • YOLOv3는 강한 AP50 성능과 속도 트레이드오프를 제공하지만 COCO 스타일 AP(AP 0.5:0.95)는 일부 단일 스테이지 검출기보다 뒤처질 수 있다.
  • 본 연구에서 앵커 박스 및 x,y 오프셋 예측과 focal loss 실험은 mAP를 향상시키지 못했다.
  • 다중 스케일 예측은 작은 객체 탐지(AP S)를 개선하는 데 도움이 되면서 전체 속도 이점을 유지한다.
Figure 2: Bounding boxes with dimension priors and location prediction. We predict the width and height of the box as offsets from cluster centroids. We predict the center coordinates of the box relative to the location of filter application using a sigmoid function. This figure blatantly self-plagi
Figure 2: Bounding boxes with dimension priors and location prediction. We predict the width and height of the box as offsets from cluster centroids. We predict the center coordinates of the box relative to the location of filter application using a sigmoid function. This figure blatantly self-plagi

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.