QUICK REVIEW

[論文レビュー] Occlusion-aware R-CNN: Detecting Pedestrians in a Crowd

Shifeng Zhang, Longyin Wen|arXiv (Cornell University)|Jul 23, 2018

Video Surveillance and Tracking Methods参考文献 53被引用数 33

ひとこと要約

本論文では、同一歩行者周辺の提案領域をコン act にグループ化するためのアグリゲーション損失と、人体構造の事前知識と可視性予測を統合する部分的閉塞に強いRoI（PORoI）プーリング層を導入した、2段階のオブジェクト検出フレームワークであるOcclusion-aware R-CNN（OR-CNN）を提案する。この手法は、CityPersons（11.3% MR⁻²）、ETH（24.5% MR⁻²）、INRIA（6.4% MR⁻²）で最先端の性能を達成した。

ABSTRACT

Pedestrian detection in crowded scenes is a challenging problem since the pedestrians often gather together and occlude each other. In this paper, we propose a new occlusion-aware R-CNN (OR-CNN) to improve the detection accuracy in the crowd. Specifically, we design a new aggregation loss to enforce proposals to be close and locate compactly to the corresponding objects. Meanwhile, we use a new part occlusion-aware region of interest (PORoI) pooling unit to replace the RoI pooling layer in order to integrate the prior structure information of human body with visibility prediction into the network to handle occlusion. Our detector is trained in an end-to-end fashion, which achieves state-of-the-art results on three pedestrian detection datasets, i.e., CityPersons, ETH, and INRIA, and performs on-pair with the state-of-the-arts on Caltech.

研究の動機と目的

閉塞や重なった歩行者が検出精度を低下させる混雑したシーンにおける歩行者検出の課題に対処すること。
隣接する重なった歩行者に起因する誤検出を減らすために、提案領域の局所化をコンパクトでグループ化されたものに強制すること。
人体構造の事前知識と可視性予測を特徴抽出プロセスに統合することで、部分的閉塞の処理を改善すること。
多様な歩行者検出ベンチマークに一般化しやすいエンドツーエンドで訓練可能な検出器を開発すること。
特に高閉塞状況において、複数のベンチマークデータセットで最先端の性能を達成すること。

提案手法

同一歩行者に対する提案領域同士の距離と、同じ歩行者に属する提案領域同士の内部距離を同時に最小化するアグリゲーション損失（AggLoss）を提案し、提案領域のコンパクトなクラスタリングを促進する。
提案領域を5つの身体部位に分割し、それぞれの部位ごとに特徴をプールする部分的閉塞に強いRoI（PORoI）プーリングユニットを設計し、各部位の可視性スコアを統合する。
適応的サイズのプールビンを用いて、各身体部位および全提案領域から固定長の特徴ベクトルを抽出し、空間構造を保持する。
アグリゲーション損失とPORoIプーリングを用いてネットワークをエンドツーエンドで学習させ、提案領域の局所化と閉塞に強い特徴学習を同時に最適化する。
人体構造情報（例：頭部、胴体、四肢）をRoIプーリングプロセスに統合し、部分的閉塞下でも耐性を高める。
サブネットワークを用いて各身体部位の可視性スコアを予測し、検出時に特徴を重み付けすることで、閉塞領域への感受性を高める。

実験結果

リサーチクエスチョン

RQ1同一歩行者に対する提案領域のコンパクトなグループ化を促進する損失関数が、混雑したシーンにおける検出精度の向上に寄与するか？
RQ2人体構造の事前知識を効果的にRoIプーリング層に統合することで、閉塞に対する耐性を向上させられるか？
RQ3個々の身体部位の可視性予測が、閉塞された歩行者の特徴表現を向上させられるか？
RQ4提案されたPORoIプーリングユニットは、標準的なRoIプーリングよりも部分的閉塞の処理に優れているか？
RQ5OR-CNNモデルは、微調整なしで、さまざまな歩行者検出ベンチマークにどれほど一般化できるか？

主な発見

OR-CNNモデルは、CityPersonsデータセットで11.3% MR⁻²の平均リCALL率を達成し、新たな最先端性能を樹立した。
ETHデータセットでは24.5% MR⁻²を達成し、以前の最先端手法（RFN-BF）を5.7ポイント上回った。
INRIAデータセットでは6.4% MR⁻²を達成し、高解像度で多様な歩行者画像に対して強力な性能を示した。
微調整なしでCaltech-USAデータセットに一般化でき、Reasonableサブセットで4.1% MR⁻²を達成し、最も優れた既存手法と同等の性能を示した。
アブレーションスタディの結果、アグリゲーション損失とPORoIプーリングの両方が、特に高閉塞状況において顕著な性能向上に寄与していることが確認された。
PORoIプーリングによる可視性予測と身体部位特徴の統合により、部分的閉塞された歩行者に対する検出の耐性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。