[論文レビュー] RetinaMask: A Face Mask detector
本稿では、特徴エンハスィスネットワークと新規のコンテキストアテンションモジュールを用いたワンステージ型顔マスク検出器、RetinaFaceMaskを提案する。特徴エンハスィスネットワークにより検出精度が向上し、公開データセットにおいて2.3%および1.5%高い精度、11.0%および5.9%高い再現率を達成する一方で、MobileNetを用いることで軽量なデプロイも可能である。
Coronavirus disease 2019 has affected the world seriously. One major protection method for people is to wear masks in public areas. Furthermore, many public service providers require customers to use the service only if they wear masks correctly. However, there are only a few research studies about face mask detection based on image analysis. In this paper, we propose RetinaFaceMask, which is a high-accuracy and efficient face mask detector. The proposed RetinaFaceMask is a one-stage detector, which consists of a feature pyramid network to fuse high-level semantic information with multiple feature maps, and a novel context attention module to focus on detecting face masks. In addition, we also propose a novel cross-class object removal algorithm to reject predictions with low confidences and the high intersection of union. Experiment results show that RetinaFaceMask achieves state-of-the-art results on a public face mask dataset with $2.3\%$ and $1.5\%$ higher than the baseline result in the face and mask detection precision, respectively, and $11.0\%$ and $5.9\%$ higher than baseline for recall. Besides, we also explore the possibility of implementing RetinaFaceMask with a light-weighted neural network MobileNet for embedded or mobile devices.
研究の動機と目的
- 公衆衛生および安全分野における自動顔マスク検出の需要増加に対応する。
- 実世界のシナリオにおける顔マスク認識の検出精度と効率性を向上させる。
- モバイルまたは組み込みデバイスにデプロイ可能である一方で、高い性能を維持するモデルを開発する。
- コンテキストに適応した特徴学習と信頼度ベースの予測フィルタリングを導入することで、従来の顔マスク検出システムの限界を克服する。
提案手法
- マルチスケール特徴マップの統合を可能にする特徴エンハスィスネットワークを統合した、RetinaNetに基づくワンステージオブジェクト検出フレームワークを採用し、局所化精度を向上させる。
- 顔マスク検出に関連する領域に注目することで特徴表現を強化する、新規のコンテキストアテンションモジュールを導入する。
- IoUしきい値を用いたしきい値処理により、低信頼度の予測をフィルタリングし、誤検出を低減するためのクロスクラスオブジェクト除去アルゴリズムを適用する。
- モバイルおよび組み込みプラットフォームでの効率的推論を可能にするために、バックボーンネットワークとしてMobileNetを用いた軽量バージョンを設計する。
- データオーグメンテーションを用いて耐性を高めるために、公開顔マスク検出データセット上でエンドツーエンドにモデルを学習する。
- クラスの不均衡(マスクありとマスクなしの顔)を解消するため、フォーカルロスを用いて損失関数を最適化する。
実験結果
リサーチクエスチョン
- RQ1特徴エンハスィスネットワーク統合とアテンション機構を備えたワンステージ検出器は、既存手法と比較して顔およびマスク検出性能を優れたものにできるか?
- RQ2提案されたコンテキストアテンションモジュールは、顔マスク領域の検出精度を向上させるためにどの程度効果的か?
- RQ3クロスクラスオブジェクト除去アルゴリズムは、誤検出をどの程度低減させ、検出の信頼性を向上させるか?
- RQ4軽量なモバイルまたは組み込みハードウェアに効率的にデプロイされる場合でも、モデルは高い精度を維持できるか?
主な発見
- RetinaFaceMaskは、ベースラインモデルと比較して顔検出で2.3%高い精度、マスク検出で1.5%高い精度を達成した。
- 顔検出で11.0%高い再現率、マスク検出で5.9%高い再現率を記録しており、マスクを着用した顔の検出が向上していることが示された。
- 提案されたコンテキストアテンションモジュールは、複雑な状況や部分的遮蔽状況においても特徴表現を顕著に向上させた。
- クロスクラスオブジェクト除去アルゴリズムは、低信頼度の予測を効果的に低減させ、全体の検出信頼性を向上させた。
- 軽量なMobileNetベースのバージョンは、顕著な精度損失なしにモバイルおよび組み込みデバイスへの効率的デプロイを可能にした。
- 全体として、RetinaFaceMaskは公開顔マスク検出ベンチマークで新たな最先端性能を確立した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。