[論文レビュー] The Good, the Bad and the Ugly: Evaluating Convolutional Neural Networks for Prohibited Item Detection Using Real and Synthetically Composited X-ray Imagery
本研究では、実際のデータと合成的に合成されたデータの両方を用いて、X線セキュリティ画像における銃器、銃器部品、ナイフの検出に、ResNet-101をバックボーンとするFaster R-CNNを評価した。実データではmAPが0.88、合成データではmAPが0.78を達成し、性能の差は認められるが、合成画像が訓練データの多様性を高める代替手段として有効であることが示された。
Detecting prohibited items in X-ray security imagery is pivotal in maintaining border and transport security against a wide range of threat profiles. Convolutional Neural Networks (CNN) with the support of a significant volume of data have brought advancement in such automated prohibited object detection and classification. However, collating such large volumes of X-ray security imagery remains a significant challenge. This work opens up the possibility of using synthetically composed imagery, avoiding the need to collate such large volumes of hand-annotated real-world imagery. Here we investigate the difference in detection performance achieved using real and synthetic X-ray training imagery for CNN architecture detecting three exemplar prohibited items, {Firearm, Firearm Parts, Knives}, within cluttered and complex X-ray security baggage imagery. We achieve 0.88 of mean average precision (mAP) with a Faster R-CNN and ResNet-101 CNN architecture for this 3-class object detection using real X-ray imagery. While the performance is comparable with synthetically composited X-ray imagery (0.78 mAP), our extended evaluation demonstrates both challenge and promise of using synthetically composed images to diversify the X-ray security training imagery for automated detection algorithm training.
研究の動機と目的
- 合成的に組み立てられたX線画像を用いた禁止物品検出における畳み込みニューラルネットワーク(CNN)の性能を評価すること。
- 銃器、銃器部品、ナイフの3つの主要な脅威クラスについて、実データと合成データの両方を用いた訓練データにおける検出精度の差を比較すること。
- 大量の手動アノテーションが施された実世界のX線画像に依存するのを減らすために、合成画像を用いる可能性を検討すること。
- 自動禁止物品検出モデルの多様性と頑健性を高めるために、合成データの課題と可能性を評価すること。
提案手法
- 複雑な荷物のシーンを含む実際のX線セキュリティ画像を用いて、ResNet-101をバックボーンとするFaster R-CNNモデルを訓練した。
- 実際の荷物スキャン画像に、禁止物品(銃器、部品、ナイフ)をデジタルで挿入することで、合成的に組み立てられたX線画像を生成した。
- データ拡張技術を用いて、合成サンプルの多様性を高め、一般化性能を向上させた。
- 同一の評価プロトコルに従い、3つの物体クラスにおける平均平均精度(mAP)を用いてモデルの性能を評価した。
- 実データおよび合成データの両方の訓練セットにおいて、性能を最適化するために、トランスファー学習およびファインチューニング戦略を適用した。
実験結果
リサーチクエスチョン
- RQ1禁止物品検出におけるモデル性能は、実データと合成的に組み立てられたX線画像の間でどのように異なるか?
- RQ2複雑でごちゃついた荷物のシーンにおいて、合成X線データが実データと同等の検出精度を維持できる程度はどの程度か?
- RQ3X線セキュリティ応用におけるCNNの訓練に合成データを用いる際の主な課題は何か?
- RQ4合成データは、自動禁止物品検出における訓練データの多様性を効果的に高め、モデルの一般化性能を向上させることができるか?
主な発見
- 実際のX線画像を用いて訓練および評価した場合、モデルは平均平均精度(mAP)0.88を達成した。
- 合成的に組み立てられたX線画像を用いて訓練した場合、mAPは0.78にとどまり、顕著なが性能差が認められたが、許容範囲内であった。
- 合成画像は、訓練データの多様性を高め、大量のアノテーションが施された実世界の画像に依存するのを減らす可能性を示した。
- 性能差は、合成データが実際のX線スキャンの現実性や特徴の正確さに追いつくために、さらなる精錬が必要であることを示唆している。
- 延長評価により、合成データが自動検出システムの訓練データの多様性を高めるという課題と可能性の両方が確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。