Skip to main content
QUICK REVIEW

[論文レビュー] TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios

Xingkui Zhu, Shuchang Lyu|arXiv (Cornell University)|Aug 26, 2021
Advanced Neural Network Applications参考文献 56被引用数 122
ひとこと要約

TPH-YOLOv5はYOLOv5を、超小物体予測ヘッド、Transformer Prediction Heads、CBAM、データ-拡張およびアンサンブル戦略を追加し、VisDrone2021 test-challengeで最先端の性能(AP 39.18%)を達成。

ABSTRACT

Object detection on drone-captured scenarios is a recent popular task. As drones always navigate in different altitudes, the object scale varies violently, which burdens the optimization of networks. Moreover, high-speed and low-altitude flight bring in the motion blur on the densely packed objects, which leads to great challenge of object distinction. To solve the two issues mentioned above, we propose TPH-YOLOv5. Based on YOLOv5, we add one more prediction head to detect different-scale objects. Then we replace the original prediction heads with Transformer Prediction Heads (TPH) to explore the prediction potential with self-attention mechanism. We also integrate convolutional block attention model (CBAM) to find attention region on scenarios with dense objects. To achieve more improvement of our proposed TPH-YOLOv5, we provide bags of useful strategies such as data augmentation, multiscale testing, multi-model integration and utilizing extra classifier. Extensive experiments on dataset VisDrone2021 show that TPH-YOLOv5 have good performance with impressive interpretability on drone-captured scenarios. On DET-test-challenge dataset, the AP result of TPH-YOLOv5 are 39.18%, which is better than previous SOTA method (DPNetV3) by 1.81%. On VisDrone Challenge 2021, TPHYOLOv5 wins 5th place and achieves well-matched results with 1st place model (AP 39.43%). Compared to baseline model (YOLOv5), TPH-YOLOv5 improves about 7%, which is encouraging and competitive.

研究の動機と目的

  • ドローンで撮影された物体検出の課題、極端な尺度の変化、高密度な物体、広いシーンカバレッジを含む課題に対処する。
  • YOLOv5を専用のtiny-objectヘッドとTransformerベースの予測ヘッドで強化し、局所化と密集したシーンの扱いを改善する。
  • 注意機構とトレーニング/推論の工夫を組み込み、ドローンデータセットでの性能と堅牢性を向上させる。

提案手法

  • YOLOv5にtiny objects用の4番目の予測ヘッドを追加して、極端な尺度分布に対応。
  • 元の予測ヘッドをTransformer Prediction Heads (TPH)に置換し、自己注意機構を活用して混雑したシーンでの局所化を改善。
  • Convolutional Block Attention Module (CBAM)を統合して、密集したシーンで関心領域に焦点を合わせる。
  • データ拡張(MixUp、Mosaic)などのトリック、マルチスケールテスト、モデルアンサンブルを適用して精度を向上。
  • 切り出しオブジェクトパッチ上で自己学習済みのResNet18分類器を使用して、誤分類/混乱しやすいカテゴリを改善し最終予測を洗練。
  • 入力のスケーリング、反転を用いたms-testingを実行し、アンサンブル時にWeighted Boxes Fusion (WBF)で予測を統合。

実験結果

リサーチクエスチョン

  • RQ1変化する物体サイズを持つドローン撮影画像に対して、Transformerベースの予測ヘッドは物体の局在化をどう改善できるか?
  • RQ2密集したドローンシーンにおけるtiny-object予測ヘッドとCBAMの追加が検出性能に与える影響は?
  • RQ3データ拡張、マルチスケールテスト、モデルアンサンブルはVisDrone2021の性能を有意に向上させるか、どれくらいか?
  • RQ4切り出しパッチ上の自己訓練分類器は、混乱しやすいカテゴリの分類精度を改善できるか?

主な発見

MethodsmAP (%)AP50 (%)
RetinaNet11.8121.37
RefineDet14.9028.76
DetNet5915.2629.23
Cascade-RCNN16.0931.91
FPN16.5132.20
Light-RCNN16.5332.78
CornerNet17.4134.12
RRNet (2019)29.1355.82
DPNet-ensemble (2019)29.6254.00
SMPNet (2020)35.9859.53
DPNetV3 (2020)37.3762.05
TPH-YOLOv5 ensemble39.18N/A
  • VisDrone2021 DET test-devでのTPH-YOLOv5はYOLOv5ベースラインおよび従来のアブレーションを上回るmAPを達成。
  • tiny-objectヘッド(P2)の追加は、GFLOPsが増加しても顕著なAPの向上をもたらす。
  • TransformerエンコーダーブロックはネットワークサイズとGFLOPsを削減しつつmAPを増加させ、密集物体検出に寄与。
  • ms-testingとWBFを用いたモデルアンサンブルは、単一モデルより高いmAPを達成。
  • 自己訓練分類器は最終結果で約0.8–1.0%のAP向上を提供。
  • VisDrone2021 test-challengeでは、TPH-YOLOv5アンサンブルが39.18%のAPを達成し、従来のSOTA DPNetV3を1.81%上回る(Table 1)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。