[论文解读] Toward Automatic Threat Recognition for Airport X-ray Baggage Screening with Deep Convolutional Object Detection
本文提出了一种基于深度学习的机场X光行李筛查自动威胁检测系统,采用Faster R-CNN与ResNet152,在新收集的包含多样化威胁的X光扫描数据集上进行训练。该系统在Rapiscan 620DV扫描仪上实现了实时推理,通过多视角分析和鲁棒的目标检测,实现了对枪械、刀具、钝器以及液体、气溶胶和凝胶等威胁的高精度检测。
For the safety of the traveling public, the Transportation Security Administration (TSA) operates security checkpoints at airports in the United States, seeking to keep dangerous items off airplanes. At these checkpoints, the TSA employs a fleet of X-ray scanners, such as the Rapiscan 620DV, so Transportation Security Officers (TSOs) can inspect the contents of carry-on possessions. However, identifying and locating all potential threats can be a challenging task. As a result, the TSA has taken a recent interest in deep learning-based automated detection algorithms that can assist TSOs. In a collaboration funded by the TSA, we collected a sizable new dataset of X-ray scans with a diverse set of threats in a wide array of contexts, trained several deep convolutional object detection models, and integrated such models into the Rapiscan 620DV, resulting in functional prototypes capable of operating in real time. We show performance of our models on held-out evaluation sets, analyze several design parameters, and demonstrate the potential of such systems for automated detection of threats that can be found in airports.
研究动机与目标
- 解决机场X光行李筛查中人工威胁检测所面临的挑战,该过程因视觉杂乱和操作员疲劳而耗时且易出错。
- 开发一种自动化、实时的目标检测系统,协助运输安全官员(TSOs)识别枪械、刀具、钝器以及液体、气溶胶和凝胶等违禁物品。
- 收集并标注大规模、多样化的X光扫描数据集,包含真实世界行李配置中的实际威胁,用于训练深度学习模型。
- 将训练好的目标检测模型集成到Rapiscan 620DV扫描仪原型中,以在接近真实世界部署环境的条件下进行现场测试与评估。
- 在多种模型架构与配置下评估模型性能,重点关注准确性、推理速度以及对视角变化的鲁棒性。
提出的方法
- 使用Rapiscan 620DV扫描仪收集大规模X光扫描数据集,捕捉包含隐蔽威胁的行李在双垂直视角下的图像。
- 为每张扫描图像标注紧密的边界框及四类威胁的类别标签:枪械、锐器、钝器以及液体、气溶胶和凝胶(LAGs)。
- 使用预处理后的彩色X光图像,训练并评估多种深度卷积目标检测模型,包括Faster R-CNN(ResNet152)、SSD和RetinaNet。
- 通过将顶视图和侧视图的检测结果均作为独立输入,实施多视角分析,要求所有视角均检测到威胁才算正确检测。
- 针对商用硬件优化模型以实现实时推理,优先保证高准确性而非速度,因为在此应用中帧率并非性能瓶颈。
- 采用交并比(IoU)阈值为0.5判断真正例,以平均精度均值(mAP)作为主要评估指标。
实验结果
研究问题
- RQ1深度卷积目标检测模型能否在杂乱的X光行李扫描中对多样化威胁类型实现高精度识别?
- RQ2与单视角检测相比,结合顶视图和侧视图的多视角分析在检测性能上有多大提升?
- RQ3在机场安全筛查场景中,Faster R-CNN、SSD和RetinaNet三种目标检测架构中,哪种在准确率与实时性能之间达到最佳平衡?
- RQ4模型超参数和数据增强策略在真实世界X光行李数据上的检测性能影响程度如何?
- RQ5训练好的目标检测模型能否成功集成到现有机场X光扫描仪(如Rapiscan 620DV)中,实现实时、实际运行?
主要发现
- 采用ResNet152作为特征提取器的Faster R-CNN在保留测试集上取得了最高的平均精度均值(mAP),在准确性上优于SSD和RetinaNet。
- 多视角分析显著提升了检测性能,通过减少假阴性,因为威胁在某一视角中可能比另一视角更清晰可见。
- 尽管推理速度较快,单阶段检测器如SSD和RetinaNet在安全筛查任务中准确率仍不足。
- 该系统在商用硬件上实现了实时推理,证明了其在现有Rapiscan 620DV扫描仪上部署的可行性。
- 对于部分威胁(如孤立的锤头),假阳性较为常见,表明在学习某些威胁类型的完整边界框方面仍存在挑战。
- 模型成功检测到复杂威胁,如被笔记本电脑遮挡的微型手枪,显示出对遮挡和杂乱环境的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。