Skip to main content
QUICK REVIEW

[论文解读] UESegNet: Context Aware Unconstrained ROI Segmentation Networks for Ear Biometric

Aman Kamboj, Rajneesh Rani|arXiv (Cornell University)|Oct 8, 2020
Biometric Identification and Security参考文献 64被引用 21
一句话总结

本文提出了 UESegNet-1 和 UESegNet-2,这两种是用于在二维侧脸图像中对非受限耳部感兴趣区域(ROI)进行分割的上下文感知深度学习模型。通过利用深度卷积神经网络中的上下文信息,这些模型在大多数基准数据集上实现了 IOU=0.5 时 100% 的准确率,优于 FRCNN 和 SSD 在具有挑战性的野外环境中的表现。

ABSTRACT

Biometric-based personal authentication systems have seen a strong demand mainly due to the increasing concern in various privacy and security applications. Although the use of each biometric trait is problem dependent, the human ear has been found to have enough discriminating characteristics to allow its use as a strong biometric measure. To locate an ear in a 2D side face image is a challenging task, numerous existing approaches have achieved significant performance, but the majority of studies are based on the constrained environment. However, ear biometrics possess a great level of difficulties in the unconstrained environment, where pose, scale, occlusion, illuminations, background clutter etc. varies to a great extent. To address the problem of ear localization in the wild, we have proposed two high-performance region of interest (ROI) segmentation models UESegNet-1 and UESegNet-2, which are fundamentally based on deep convolutional neural networks and primarily uses contextual information to localize ear in the unconstrained environment. Additionally, we have applied state-of-the-art deep learning models viz; FRCNN (Faster Region Proposal Network) and SSD (Single Shot MultiBox Detecor) for ear localization task. To test the model's generalization, they are evaluated on six different benchmark datasets viz; IITD, IITK, USTB-DB3, UND-E, UND-J2 and UBEAR, all of which contain challenging images. The performance of the models is compared on the basis of object detection performance measure parameters such as IOU (Intersection Over Union), Accuracy, Precision, Recall, and F1-Score. It has been observed that the proposed models UESegNet-1 and UESegNet-2 outperformed the FRCNN and SSD at higher values of IOUs i.e. an accuracy of 100\% is achieved at IOU 0.5 on majority of the databases.

研究动机与目标

  • 解决在姿态、遮挡、光照和尺度变化等不同条件下,非受限(野外)环境中准确进行耳部定位的挑战。
  • 克服现有方法依赖受限设置且通常忽略交并比(IOU)作为关键评估指标的局限性。
  • 开发对真实生物识别应用中环境变化具有鲁棒性且可泛化的 ROI 分割模型。
  • 在六个多样化基准数据集上,采用严格的 IOU 基准评估指标,确保可靠的泛化性能评估。

提出的方法

  • 基于深度卷积神经网络,提出两种 UESegNet 变体(UESegNet-1 和 UESegNet-2),以利用上下文空间信息提升耳部定位性能。
  • 通过编码器-解码器架构整合多尺度上下文特征,以增强在复杂视觉条件下的定位准确性。
  • 使用六个基准数据集(IITD、IITK、USTB-DB3、UND-E、UND-J2 和 UBEAR)中标注的侧脸图像,端到端地进行模型训练与微调。
  • 通过 IOU、精确率、召回率、F1 分数和多个 IOU 阈值下的准确率,与最先进的目标检测模型 FRCNN 和 SSD 进行性能对比。
  • 采用数据增强和归一化技术,以提升对遮挡、光照和分辨率变化的鲁棒性。
  • 将 IOU 作为主要评估指标,以确保与标准目标检测基准对齐,并避免仅依赖物体性分数。

实验结果

研究问题

  • RQ1上下文感知的深度学习模型是否能显著提升在非受限、真实世界成像条件下耳部 ROI 分割的准确性?
  • RQ2在不同 IOU 阈值下,UESegNet-1 和 UESegNet-2 在多样化基准数据集上的表现与 FRCNN 和 SSD 相比如何?
  • RQ3上下文特征在多大程度上增强了对遮挡、光照、姿态和尺度变化的鲁棒性?
  • RQ4将 IOU 作为主要评估指标,是否能带来比基于物体性分数的指标更可靠、更具泛化能力的性能评估?
  • RQ5所提出的模型是否能在图像质量与环境条件多样的多个数据集上实现有效泛化?

主要发现

  • 在 IITD、USTB-DB3 和 UBEAR 数据库上,UESegNet-2 在 IOU=0.5 时实现了 100% 的准确率,优于所有数据集上的 FRCNN 和 SSD。
  • 在 IITK 数据库上,UESegNet-2 在 IOU=0.5 时达到 99.29% 的准确率,在 IOU=0.6 时达到 97.89%,超过文献中报道的先前最先进水平(95.61%)。
  • 在 UBEAR 数据库上,UESegNet-2 在 IOU=0.5 时达到 99.92% 的准确率,在 IOU=0.6 时达到 99.84%,显著优于唯一其他可比方法(未进行 IOU 评估时准确率为 98.66%)。
  • 在 UND-J2 数据集上,UESegNet-2 在 IOU=0.5 时达到 98.52% 的准确率,在 IOU=0.6 时达到 97.87%,尽管某些先前方法报告了无 IOU 基准验证下的 100% 准确率,但本模型仍表现出强劲性能。
  • 模型对遮挡(如头发遮挡)、低分辨率和光照变化表现出鲁棒性,仅在极端情况下观察到少量失败。
  • 研究证实,基于 IOU 的评估比基于物体性分数的评估更可靠,因为物体性分数在性能评估中可能具有误导性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。