QUICK REVIEW

[논문 리뷰] YOLO9000: Better, Faster, Stronger

Joseph Redmon, Ali Farhadi|arXiv (Cornell University)|2016. 12. 25.

Advanced Neural Network Applications참고 문헌 13인용 수 435

한 줄 요약

YOLO9000은 대규모 분류 데이터와 탐지 데이터를 결합하여 WordTree 계층적 라벨링 체계를 사용해 9000개가 넘는 객체 범주를 실시간 탐지하는 단일 네트워크를 공동으로 학습한다.

ABSTRACT

We introduce YOLO9000, a state-of-the-art, real-time object detection system that can detect over 9000 object categories. First we propose various improvements to the YOLO detection method, both novel and drawn from prior work. The improved model, YOLOv2, is state-of-the-art on standard detection tasks like PASCAL VOC and COCO. At 67 FPS, YOLOv2 gets 76.8 mAP on VOC 2007. At 40 FPS, YOLOv2 gets 78.6 mAP, outperforming state-of-the-art methods like Faster RCNN with ResNet and SSD while still running significantly faster. Finally we propose a method to jointly train on object detection and classification. Using this method we train YOLO9000 simultaneously on the COCO detection dataset and the ImageNet classification dataset. Our joint training allows YOLO9000 to predict detections for object classes that don't have labelled detection data. We validate our approach on the ImageNet detection task. YOLO9000 gets 19.7 mAP on the ImageNet detection validation set despite only having detection data for 44 of the 200 classes. On the 156 classes not in COCO, YOLO9000 gets 16.0 mAP. But YOLO can detect more than just 200 classes; it predicts detections for more than 9000 different object categories. And it still runs in real-time.

연구 동기 및 목표

속도를 유지하면서 더 높은 재현율과 로컬라이제이션을 달성하기 위해 YOLO를 개선한다.
탐지 데이터와 분류 데이터를 모두 사용하여 탐지기를 학습시키는 방법을 개발한다.
작은 고정된 클래스 집합을 넘는 탐지를 가능하게 하는 확장 가능한 라벨 공간을 만든다.

제안 방법

배치 정규화, 고해상도 분류기, 앵커 박스, 차원 프라이어를 갖춘 YOLO를 YOLOv2로 개선한다.
가변 입력 크기 및 속도-정확도 트레이드오프를 가능하게 하는 다중 스케일 학습을 사용한다.
안정성을 위해 위치 예측을 그리드 셀에 상대적인 직접 바운딩 박스 좌표로 교체한다.
이전 계층의 미세한 특징을 융합하기 위한 패스스루 레이어를 추가한다.
기본 네트워크로 Darknet-19를 도입하고 세 가지 프라이어 설정으로 탐지를 학습한다.
ImageNet와 COCO 라벨을 병합하고 탐지와 분류를 위한 공동 학습을 가능하게 하는 WordTree 계층적 분류를 제안한다.
COCO 탐지 데이터를 ImageNet 분류 데이터와 혼합하고 라벨을 계층 구조를 통해 전파하여 YOLO9000을 학습시킨다.

실험 결과

연구 질문

RQ1하나의 실시간 탐지기가 탐지 데이터와 분류 데이터를 조합하여 수천 개의 객체 범주를 인식하도록 학습될 수 있는가?
RQ2계층적 라벨링(WordTree)이 상호 배제 문제 없이 여러 데이터 세트와 클래스를 통합하는 데 도움이 되는가?
RQ3탐지와 대단어 어휘 분류 모두에서 최첨단 속도-정확도 트레이드오프를 제공하는 어떤 아키텍처 및 학습 전략이 있는가?
RQ4약하게 라벨링된 분류 데이터로 학습된 탐지기가 보지 못한 클래스에 대한 탐지 작업으로 일반화되는 정도는 어느 정도인가?
RQ5다중 스케일 학습과 특징 융합이 소형 객체 로컬라이제이션 및 전체 mAP에 미치는 영향은 무엇인가?

주요 결과

YOLOv2는 VOC 2007에서 67 FPS에서 76.8 mAP로 최첨단 속도-정확도를 달성하고(또는 40 FPS에서 78.6 mAP).
YOLOv2는 VOC 2007에서 Faster R-CNN with ResNet 및 SSD를 속도-정확도 트레이드오프에서 능가한다.
YOLO9000은 ImageNet 탐지에서 19.7 mAP를 달성하는 반면, 200개 클래스 중 44개에 대해서만 탐지 데이터가 있으며; COCO에 없는 156개 클래스에서 16.0 mAP.
YOLO9000은 WordTree를 통해 COCO와 ImageNet을 공동 학습하여 실시간으로 9000개가 넘는 객체 범주를 탐지할 수 있다.
k-means로 학습된 차원 프라이어가 손으로 선택된 프라이어에 비해 재현율 및 IOU 정렬을 개선한다.
공동 학습은 계층적 라벨 구조를 가진 강건한 교차 데이터셋 일반화를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.