QUICK REVIEW

[論文レビュー] TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios

Xingkui Zhu, Shuchang Lyu|arXiv (Cornell University)|Aug 26, 2021

Advanced Neural Network Applications参考文献 56被引用数 122

ひとこと要約

TPH-YOLOv5はYOLOv5を、超小物体予測ヘッド、Transformer Prediction Heads、CBAM、データ-拡張およびアンサンブル戦略を追加し、VisDrone2021 test-challengeで最先端の性能（AP 39.18%）を達成。

ABSTRACT

Object detection on drone-captured scenarios is a recent popular task. As drones always navigate in different altitudes, the object scale varies violently, which burdens the optimization of networks. Moreover, high-speed and low-altitude flight bring in the motion blur on the densely packed objects, which leads to great challenge of object distinction. To solve the two issues mentioned above, we propose TPH-YOLOv5. Based on YOLOv5, we add one more prediction head to detect different-scale objects. Then we replace the original prediction heads with Transformer Prediction Heads (TPH) to explore the prediction potential with self-attention mechanism. We also integrate convolutional block attention model (CBAM) to find attention region on scenarios with dense objects. To achieve more improvement of our proposed TPH-YOLOv5, we provide bags of useful strategies such as data augmentation, multiscale testing, multi-model integration and utilizing extra classifier. Extensive experiments on dataset VisDrone2021 show that TPH-YOLOv5 have good performance with impressive interpretability on drone-captured scenarios. On DET-test-challenge dataset, the AP result of TPH-YOLOv5 are 39.18%, which is better than previous SOTA method (DPNetV3) by 1.81%. On VisDrone Challenge 2021, TPHYOLOv5 wins 5th place and achieves well-matched results with 1st place model (AP 39.43%). Compared to baseline model (YOLOv5), TPH-YOLOv5 improves about 7%, which is encouraging and competitive.

研究の動機と目的

ドローンで撮影された物体検出の課題、極端な尺度の変化、高密度な物体、広いシーンカバレッジを含む課題に対処する。
YOLOv5を専用のtiny-objectヘッドとTransformerベースの予測ヘッドで強化し、局所化と密集したシーンの扱いを改善する。
注意機構とトレーニング/推論の工夫を組み込み、ドローンデータセットでの性能と堅牢性を向上させる。

提案手法

YOLOv5にtiny objects用の4番目の予測ヘッドを追加して、極端な尺度分布に対応。
元の予測ヘッドをTransformer Prediction Heads (TPH)に置換し、自己注意機構を活用して混雑したシーンでの局所化を改善。
Convolutional Block Attention Module (CBAM)を統合して、密集したシーンで関心領域に焦点を合わせる。
データ拡張（MixUp、Mosaic）などのトリック、マルチスケールテスト、モデルアンサンブルを適用して精度を向上。
切り出しオブジェクトパッチ上で自己学習済みのResNet18分類器を使用して、誤分類/混乱しやすいカテゴリを改善し最終予測を洗練。
入力のスケーリング、反転を用いたms-testingを実行し、アンサンブル時にWeighted Boxes Fusion (WBF)で予測を統合。

実験結果

リサーチクエスチョン

RQ1変化する物体サイズを持つドローン撮影画像に対して、Transformerベースの予測ヘッドは物体の局在化をどう改善できるか？
RQ2密集したドローンシーンにおけるtiny-object予測ヘッドとCBAMの追加が検出性能に与える影響は？
RQ3データ拡張、マルチスケールテスト、モデルアンサンブルはVisDrone2021の性能を有意に向上させるか、どれくらいか？
RQ4切り出しパッチ上の自己訓練分類器は、混乱しやすいカテゴリの分類精度を改善できるか？

主な発見

Methods	mAP (%)	AP50 (%)
RetinaNet	11.81	21.37
RefineDet	14.90	28.76
DetNet59	15.26	29.23
Cascade-RCNN	16.09	31.91
FPN	16.51	32.20
Light-RCNN	16.53	32.78
CornerNet	17.41	34.12
RRNet (2019)	29.13	55.82
DPNet-ensemble (2019)	29.62	54.00
SMPNet (2020)	35.98	59.53
DPNetV3 (2020)	37.37	62.05
TPH-YOLOv5 ensemble	39.18	N/A

VisDrone2021 DET test-devでのTPH-YOLOv5はYOLOv5ベースラインおよび従来のアブレーションを上回るmAPを達成。
tiny-objectヘッド（P2）の追加は、GFLOPsが増加しても顕著なAPの向上をもたらす。
TransformerエンコーダーブロックはネットワークサイズとGFLOPsを削減しつつmAPを増加させ、密集物体検出に寄与。
ms-testingとWBFを用いたモデルアンサンブルは、単一モデルより高いmAPを達成。
自己訓練分類器は最終結果で約0.8–1.0%のAP向上を提供。
VisDrone2021 test-challengeでは、TPH-YOLOv5アンサンブルが39.18%のAPを達成し、従来のSOTA DPNetV3を1.81%上回る（Table 1）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。