QUICK REVIEW

[論文レビュー] YOLO9000: Better, Faster, Stronger

Joseph Redmon, Ali Farhadi|arXiv (Cornell University)|Dec 25, 2016

Advanced Neural Network Applications参考文献 13被引用数 435

ひとこと要約

YOLO9000 は、WordTree の階層的ラベリング方式を用いて、検出データと大規模分類データを組み合わせることで、9000を超える物体カテゴリを検出できるリアルタイム検出器を共同訓練します。

ABSTRACT

We introduce YOLO9000, a state-of-the-art, real-time object detection system that can detect over 9000 object categories. First we propose various improvements to the YOLO detection method, both novel and drawn from prior work. The improved model, YOLOv2, is state-of-the-art on standard detection tasks like PASCAL VOC and COCO. At 67 FPS, YOLOv2 gets 76.8 mAP on VOC 2007. At 40 FPS, YOLOv2 gets 78.6 mAP, outperforming state-of-the-art methods like Faster RCNN with ResNet and SSD while still running significantly faster. Finally we propose a method to jointly train on object detection and classification. Using this method we train YOLO9000 simultaneously on the COCO detection dataset and the ImageNet classification dataset. Our joint training allows YOLO9000 to predict detections for object classes that don't have labelled detection data. We validate our approach on the ImageNet detection task. YOLO9000 gets 19.7 mAP on the ImageNet detection validation set despite only having detection data for 44 of the 200 classes. On the 156 classes not in COCO, YOLO9000 gets 16.0 mAP. But YOLO can detect more than just 200 classes; it predicts detections for more than 9000 different object categories. And it still runs in real-time.

研究の動機と目的

速度を維持しつつ、リコールと局在精度を向上させるように YOLO を改善する。
検出データと分類データの両方を用いて検出器を訓練する方法を開発する。
固定された少数のクラスを超える検出を可能にする、スケーラブルなラベル空間を作成する。

提案手法

バッチ正規化、ハイレゾリューション分類器、アンカーボックス、次元事前分布を備えた YOLO への改善として YOLOv2 を提案する。
変動入力サイズと速度-精度のトレードオフを可能にするためにマルチスケール訓練を使用する。
安定性のため、格子セルに対する直接的な境界箱座標で位置予測を置換する。
早期層からの細かな特徴を融合するパススルー層を追加する。
Darknet-19 をベースネットワークとして導入し、3-prior 設定で検出訓練を行う。
ImageNet と COCO のラベルを統合し、検出と分類の共同訓練を可能にする WordTree 階層分類を提案する。
COCO 検出データと ImageNet 分類データをブレンドして YOLO9000 を訓練し、階層を通じてラベルを伝搬させる。

実験結果

リサーチクエスチョン

RQ1検出データと分類データの組み合わせを用いて、単一のリアルタイム検出器を数千の物体カテゴリを認識するように訓練できるか？
RQ2階層ラベリング（WordTree）は、相互排他の問題なしに複数のデータセットとクラスの統合を改善するか？
RQ3検出と大語彙分類の両方で最先端の速度-精度のトレードオフを達成するための建築と訓練戦略は何か？
RQ4弱標識分類データで訓練された検出器は、未知のクラスの検出タスクにどれだけ一般化できるか？
RQ5マルチスケール訓練と特徴融合が小さな物体の局在化と全体の mAP に与える影響はどの程度か？

主な発見

YOLOv2 は VOC 2007 で 67 FPS で 76.8 mAP、40 FPS で 78.6 mAP の速度-精度を達成している。
YOLOv2 は VOC 2007 において、ResNet を用いた Faster R-CNN および SSD よりも速度-精度のトレードオフで優れている。
YOLO9000 は ImageNet 検出で 19.7 mAP を達成し、200 クラス中 44 クラスの検出データしかない状態で、COCO に未掲載の 156 クラスで 16.0 mAP。
YOLO9000 は WordTree を介して COCO と ImageNet を結合訓練することで、リアルタイムに 9000 を超える物体カテゴリを検出できる。
k-means で学習された次元事前分布は、手動選択の事前分布と比べてリコールと IOU の整合性を向上させる。
結合訓練は階層的ラベル構造を用いて、データセット間の一般化を堅牢にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。