QUICK REVIEW

[論文レビュー] UESegNet: Context Aware Unconstrained ROI Segmentation Networks for Ear Biometric

Aman Kamboj, Rajneesh Rani|arXiv (Cornell University)|Oct 8, 2020

Biometric Identification and Security参考文献 64被引用数 21

ひとこと要約

本稿では、2次元側顔画像における制約のない耳領域（ROI）分類のための文脈に配慮した深層学習モデル、UESegNet-1およびUESegNet-2を提案する。深層畳み込みニューラルネットワークを用いて文脈的情報を活用することで、多数のベンチマークデータセットにおいてIOU=0.5の条件下で100%の正確性を達成し、FRCNNやSSDを上回る性能を示した。特に自然環境下でも優れた性能を発揮した。

ABSTRACT

Biometric-based personal authentication systems have seen a strong demand mainly due to the increasing concern in various privacy and security applications. Although the use of each biometric trait is problem dependent, the human ear has been found to have enough discriminating characteristics to allow its use as a strong biometric measure. To locate an ear in a 2D side face image is a challenging task, numerous existing approaches have achieved significant performance, but the majority of studies are based on the constrained environment. However, ear biometrics possess a great level of difficulties in the unconstrained environment, where pose, scale, occlusion, illuminations, background clutter etc. varies to a great extent. To address the problem of ear localization in the wild, we have proposed two high-performance region of interest (ROI) segmentation models UESegNet-1 and UESegNet-2, which are fundamentally based on deep convolutional neural networks and primarily uses contextual information to localize ear in the unconstrained environment. Additionally, we have applied state-of-the-art deep learning models viz; FRCNN (Faster Region Proposal Network) and SSD (Single Shot MultiBox Detecor) for ear localization task. To test the model's generalization, they are evaluated on six different benchmark datasets viz; IITD, IITK, USTB-DB3, UND-E, UND-J2 and UBEAR, all of which contain challenging images. The performance of the models is compared on the basis of object detection performance measure parameters such as IOU (Intersection Over Union), Accuracy, Precision, Recall, and F1-Score. It has been observed that the proposed models UESegNet-1 and UESegNet-2 outperformed the FRCNN and SSD at higher values of IOUs i.e. an accuracy of 100\% is achieved at IOU 0.5 on majority of the databases.

研究の動機と目的

ポーズ、部分的隠蔽、照明、スケールの変動が生じる制約のない（野生的）環境下での正確な耳の局所化の課題に対処すること。
従来の手法が制約付きの設定に依存しており、交差領域比（IOU）を主な評価指標として無視する傾向にあるという限界を克服すること。
実世界のバイオメトリクス応用において環境変動に不変であるような、強力で汎用性の高いROI分類モデルを開発すること。
IOUに基づく厳密な指標を用いて6つの多様なベンチマークデータセット上で性能を評価し、一般化性能の信頼性を保証すること。

提案手法

文脈的な空間的情報を活用して耳の局所化を向上させるために、深層畳み込みニューラルネットワークに基づく2種類のUESegNetバージョン（UESegNet-1およびUESegNet-2）を提案する。
エンコーダ・デコーダアーキテクチャを用いてマルチスケールの文脈特徴を統合し、複雑な視覚的条件下でも局所化の正確性を向上させる。
IITD、IITK、USTB-DB3、UND-E、UND-J2、UBEARの6つのベンチマークデータセットから得たアノテーション付きの側顔画像を用いて、モデルをエンドツーエンドで学習および微調整する。
IOU、精度、再現率、F1スコア、および複数のIOU閾値における正確性を用いて、最先端の物体検出モデルFRCNNおよびSSDと性能を比較する。
オクルージョン、照明、解像度の変動に対する耐性を高めるために、データ拡張および正規化技術を採用する。
IOUを主な評価指標として採用することで、オブジェクトネススコアに依存するのを避けるとともに、標準的な物体検出ベンチマークと整合性を保つ。

実験結果

リサーチクエスチョン

RQ1文脈に配慮した深層学習モデルは、制約のない現実世界の撮影条件下で、耳ROI分類の正確性を著しく向上させることができるか？
RQ2異なるIOU閾値下で、UESegNet-1およびUESegNet-2は、多様なベンチマークデータセット上でFRCNNやSSDと比較してどの程度の性能を示すか？
RQ3文脈特徴は、耳の局所化において、オクルージョン、照明、ポーズ、スケールの変動に対する耐性をどの程度向上させるか？
RQ4IOUを主な評価指標として用いることで、オブジェクトネススコアに基づく指標よりも、より信頼性が高く一般化可能な性能評価が可能になるか？
RQ5提案されたモデルは、画像品質や環境条件に多様性を持つ複数のデータセットに、効果的に一般化できるか？

主な発見

UESegNet-2は、IITD、USTB-DB3、UBEARデータベースにおいてIOU=0.5の条件下で100%の正確性を達成し、すべてのデータセットでFRCNNおよびSSDを上回った。
IITKデータベースでは、UESegNet-2はIOU=0.5で99.29%、IOU=0.6で97.89%の正確性を達成し、文献に報告された先行の最良手法（95.61%）を上回った。
UBEARデータベースでは、UESegNet-2はIOU=0.5で99.92%、IOU=0.6で99.84%の正確性を達成し、唯一の同等の手法（IOU評価なしで98.66%）を著しく上回った。
UND-J2ではIOU=0.5で98.52%、IOU=0.6で97.87%の正確性を達成し、IOUベースの検証なしに100%の正確性を報告した先行手法に対しても強力な性能を示した。
髪によるオクルージョン、低解像度、照明の変動に対してもモデルは耐性を示し、極端な状況を除いてわずかな失敗しか観察されなかった。
本研究では、オブジェクトネススコアに基づく評価よりもIOUに基づく評価が、検出正確性の測定においてより信頼性が高く、誤解を招く可能性が低いことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。