[論文レビュー] TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios
TPH-YOLOv5はYOLOv5を、超小物体予測ヘッド、Transformer Prediction Heads、CBAM、データ-拡張およびアンサンブル戦略を追加し、VisDrone2021 test-challengeで最先端の性能(AP 39.18%)を達成。
Object detection on drone-captured scenarios is a recent popular task. As drones always navigate in different altitudes, the object scale varies violently, which burdens the optimization of networks. Moreover, high-speed and low-altitude flight bring in the motion blur on the densely packed objects, which leads to great challenge of object distinction. To solve the two issues mentioned above, we propose TPH-YOLOv5. Based on YOLOv5, we add one more prediction head to detect different-scale objects. Then we replace the original prediction heads with Transformer Prediction Heads (TPH) to explore the prediction potential with self-attention mechanism. We also integrate convolutional block attention model (CBAM) to find attention region on scenarios with dense objects. To achieve more improvement of our proposed TPH-YOLOv5, we provide bags of useful strategies such as data augmentation, multiscale testing, multi-model integration and utilizing extra classifier. Extensive experiments on dataset VisDrone2021 show that TPH-YOLOv5 have good performance with impressive interpretability on drone-captured scenarios. On DET-test-challenge dataset, the AP result of TPH-YOLOv5 are 39.18%, which is better than previous SOTA method (DPNetV3) by 1.81%. On VisDrone Challenge 2021, TPHYOLOv5 wins 5th place and achieves well-matched results with 1st place model (AP 39.43%). Compared to baseline model (YOLOv5), TPH-YOLOv5 improves about 7%, which is encouraging and competitive.
研究の動機と目的
- ドローンで撮影された物体検出の課題、極端な尺度の変化、高密度な物体、広いシーンカバレッジを含む課題に対処する。
- YOLOv5を専用のtiny-objectヘッドとTransformerベースの予測ヘッドで強化し、局所化と密集したシーンの扱いを改善する。
- 注意機構とトレーニング/推論の工夫を組み込み、ドローンデータセットでの性能と堅牢性を向上させる。
提案手法
- YOLOv5にtiny objects用の4番目の予測ヘッドを追加して、極端な尺度分布に対応。
- 元の予測ヘッドをTransformer Prediction Heads (TPH)に置換し、自己注意機構を活用して混雑したシーンでの局所化を改善。
- Convolutional Block Attention Module (CBAM)を統合して、密集したシーンで関心領域に焦点を合わせる。
- データ拡張(MixUp、Mosaic)などのトリック、マルチスケールテスト、モデルアンサンブルを適用して精度を向上。
- 切り出しオブジェクトパッチ上で自己学習済みのResNet18分類器を使用して、誤分類/混乱しやすいカテゴリを改善し最終予測を洗練。
- 入力のスケーリング、反転を用いたms-testingを実行し、アンサンブル時にWeighted Boxes Fusion (WBF)で予測を統合。
実験結果
リサーチクエスチョン
- RQ1変化する物体サイズを持つドローン撮影画像に対して、Transformerベースの予測ヘッドは物体の局在化をどう改善できるか?
- RQ2密集したドローンシーンにおけるtiny-object予測ヘッドとCBAMの追加が検出性能に与える影響は?
- RQ3データ拡張、マルチスケールテスト、モデルアンサンブルはVisDrone2021の性能を有意に向上させるか、どれくらいか?
- RQ4切り出しパッチ上の自己訓練分類器は、混乱しやすいカテゴリの分類精度を改善できるか?
主な発見
| Methods | mAP (%) | AP50 (%) |
|---|---|---|
| RetinaNet | 11.81 | 21.37 |
| RefineDet | 14.90 | 28.76 |
| DetNet59 | 15.26 | 29.23 |
| Cascade-RCNN | 16.09 | 31.91 |
| FPN | 16.51 | 32.20 |
| Light-RCNN | 16.53 | 32.78 |
| CornerNet | 17.41 | 34.12 |
| RRNet (2019) | 29.13 | 55.82 |
| DPNet-ensemble (2019) | 29.62 | 54.00 |
| SMPNet (2020) | 35.98 | 59.53 |
| DPNetV3 (2020) | 37.37 | 62.05 |
| TPH-YOLOv5 ensemble | 39.18 | N/A |
- VisDrone2021 DET test-devでのTPH-YOLOv5はYOLOv5ベースラインおよび従来のアブレーションを上回るmAPを達成。
- tiny-objectヘッド(P2)の追加は、GFLOPsが増加しても顕著なAPの向上をもたらす。
- TransformerエンコーダーブロックはネットワークサイズとGFLOPsを削減しつつmAPを増加させ、密集物体検出に寄与。
- ms-testingとWBFを用いたモデルアンサンブルは、単一モデルより高いmAPを達成。
- 自己訓練分類器は最終結果で約0.8–1.0%のAP向上を提供。
- VisDrone2021 test-challengeでは、TPH-YOLOv5アンサンブルが39.18%のAPを達成し、従来のSOTA DPNetV3を1.81%上回る(Table 1)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。