QUICK REVIEW

[論文レビュー] Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3

Petr Hurtík, Vojtěch Molek|arXiv (Cornell University)|May 27, 2020

Advanced Image and Video Retrieval Techniques被引用数 25

ひとこと要約

Poly-YOLO は、段階的アップサンプリングを用いたハイパーカラムベースのネックを導入し、マルチスケール特徴を統合することで、1つの高解像度出力に統一。これにより、ラベル再作成とアンカーミスプレースメントを解消。60%のパrameter削減と40%の相対 mAP 向上を達成。同時に、極座標における学習可能でサイズに依存しないバウンディングポリゴンを用いてリアルタイムのインスタンスセグメンテーションを実現。

ABSTRACT

We present a new version of YOLO with better performance and extended with instance segmentation called Poly-YOLO. Poly-YOLO builds on the original ideas of YOLOv3 and removes two of its weaknesses: a large amount of rewritten labels and inefficient distribution of anchors. Poly-YOLO reduces the issues by aggregating features from a light SE-Darknet-53 backbone with a hypercolumn technique, using stairstep upsampling, and produces a single scale output with high resolution. In comparison with YOLOv3, Poly-YOLO has only 60% of its trainable parameters but improves mAP by a relative 40%. We also present Poly-YOLO lite with fewer parameters and a lower output resolution. It has the same precision as YOLOv3, but it is three times smaller and twice as fast, thus suitable for embedded devices. Finally, Poly-YOLO performs instance segmentation using bounding polygons. The network is trained to detect size-independent polygons defined on a polar grid. Vertices of each polygon are being predicted with their confidence, and therefore Poly-YOLO produces polygons with a varying number of vertices.

研究の動機と目的

YOLOv3 の主な2つの弱みに対処：粗い解像度によるラベル再作成と、不適切なアンカーディストリビューション。
検出精度を向上させつつ、モデルサイズと推論時間を削減し、リアルタイムデプロイメントを実現。
動的でサイズに依存しないバウンディングポリゴンを用いて YOLOv3 にインスタンスセグメンテーションを拡張。
極座標によるポリゴン制御を用いて、インテリジェントなヘッドランプ制御などのアプリケーションで正確かつ説明可能なオブジェクト強調を実現。
精度やセグメンテーションの忠実度を損なわず、中級GPUでリアルタイム性能を達成。

提案手法

軽量な SE-Darknet-53 バックボーンから得られるマルチ解像度特徴マップを統合する、ステアステップアップサンプリングを用いたハイパーカラムベースの特徴フェージュネックを提案。
YOLOv3 のマルチスケールヘッドを1つの高解像度出力テンソルに置き換え、ラベル再作成の解消とアンカーディストリビューションの改善を実現。
相対座標を用いた極座標グリッド上で、バウンディングポリゴンの頂点を予測する新しいインスタンスセグメンテーションヘッドを設計。
各オブジェクトに対して可変な数のポリゴン頂点を予測できるように学習させ、サイズに依存しない形状学習を可能に。
各頂点ごとの信頼度スコアを用いて、オブジェクトの形状と検出信頼度に応じた動的ポリゴン複雑度を実現。
頂点が極座標セルにマッピングされるラベル作成スキームを導入。重複するセル内では、遠くの頂点に優先順位を付ける。

実験結果

リサーチクエスチョン

RQ1ハイパーカラム統合とステアステップアップサンプリングを用いた変更された YOLOv3 ネックは、ラベル再作成を低減し、アンカーディストリビューションを改善できるか？
RQ21つの高解像度出力テンソルは、YOLOv3 のマルチスケールヘッドを上回る検出精度を達成するか？同時にパrameter数を削減できるか？
RQ3極座標系における動的でサイズに依存しないバウンディングポリゴンを用いて、インスタンスセグメンテーションを効果的に実現できるか？
RQ4提案手法は、mAP の向上と正確なオブジェクト制御を維持したまま、中級GPUでリアルタイム推論速度を確保できるか？
RQ5ポリゴンベースのセグメンテーションは、追加のラベリングなしに、インテリジェントヘッドランプ制御などの実用的で説明可能なアプリケーションを可能にするか？

主な発見

Poly-YOLO は YOLOv3 と比較して mAP を相対的に 40% 向上させつつ、トレーニング可能なパrameterを元の 60% に削減した。
Cityscapes データセットを用いた実験で、中級GPU上で 22 FPS のリアルタイム推論を達成した。
Poly-YOLO Lite は YOLOv3 と同等の mAP を達成しているが、サイズは3倍小さく、2倍速く、組み込みシステムに適している。
ポリゴンベースのインスタンスセグメンテーション手法は、サイズに依存しない形状を学習し、オブジェクトごとに頂点数を動的に調整可能である。
極座標グリッド表現により、インテリジェントヘッドランプ制御などのアプリケーションで効率的かつ説明可能な制御が可能となり、特定のオブジェクト部品（例：ウィンドウ）をぼかす制御が可能になった。
複数の頂点が同じ極座標セルに割り当てられる場合、非凸形状が歪む可能性があるが、これは主にラベル作成の問題に起因し、モデルの予測とは無関係である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。