Skip to main content
QUICK REVIEW

[論文レビュー] A Performance Comparison of Loss Functions for Deep Face Recognition

Yash Srivastava, Vaishnav Murali|arXiv (Cornell University)|Jan 1, 2019
Face recognition and analysis参考文献 39被引用数 25
ひとこと要約

本稿では、ResNet50およびMobileNetを用いてCASIA-WebfaceおよびMS-Celeb-1Mデータセットで学習を行い、LFWでテストする深層顔認識における5つの深層損失関数(交差エントロピー、アングルソフトマックス、加法的マージンソフトマックス、ArcFace、マージナル損失)を評価している。ArcFaceは99.35%の最高精度を達成し、収束速度も速く、アーキテクチャやデータセットを問わず性能と安定性の両面で他の手法を上回った。

ABSTRACT

Face recognition is one of the most widely publicized feature in the devices today and hence represents an important problem that should be studied with the utmost priority. As per the recent trends, the Convolutional Neural Network (CNN) based approaches are highly successful in many tasks of Computer Vision including face recognition. The loss function is used on the top of CNN to judge the goodness of any network. In this paper, we present a performance comparison of different loss functions such as Cross-Entropy, Angular Softmax, Additive-Margin Softmax, ArcFace and Marginal Loss for face recognition. The experiments are conducted with two CNN architectures namely, ResNet and MobileNet. Two widely used face datasets namely, CASIA-Webface and MS-Celeb-1M are used for the training and benchmark Labeled Faces in the Wild (LFW) face dataset is used for the testing.

研究の動機と目的

  • 異なるネットワークアーキテクチャと学習データの下で、現代的な深層損失関数の顔認識における性能を評価・比較すること。
  • 異なる損失関数が深層畳み込みニューラルネットワーク(CNN)における訓練精度、テスト精度、収束速度に与える影響を評価すること。
  • 軽量(MobileNet)および深層(ResNet)アーキテクチャの両方において、最も高い一般化性能と安定性を示す損失関数を特定すること。
  • 学習データセット(CASIA-Webface対MS-Celeb-1M)がモデル性能および損失関数の有効性に与える影響を分析すること。
  • 研究者および実務家が顔認識システムに最適な損失関数を選定するための実証的指針を提供すること。

提案手法

  • 本研究では、顔認識における特徴抽出および分類に、ResNet50およびMobileNetv1の2つのCNNアーキテクチャを採用している。
  • 5つの損失関数を評価している:交差エントロピー、アングルソフトマックス(A-Softmax)、加法的マージンソフトマックス、ArcFace、マージナル損失。各関数は特徴の判別能を向上させるように設計されている。
  • 実験は、学習に2つの大規模顔データセット(CASIA-WebfaceおよびMS-Celeb-1M)、テストにLabeled Faces in the Wild(LFW)を用いている。
  • 訓練は20エポックにわたり実施され、評価指標には訓練精度、テスト精度、収束速度(ピーク性能に達するまでのエポック数)が含まれる。
  • 収束速度は、LFWで最高のテスト精度に達するまでに必要な最小エポック数として定義されている。
  • 統計的分析には、エポック10~20におけるテスト精度の平均値および標準偏差を用い、モデルの安定性および収束行動を評価している。

実験結果

リサーチクエスチョン

  • RQ1異なるCNNアーキテクチャにおいて、LFWベンチマークで最も高い顔認識精度を達成するのはどの損失関数か?
  • RQ2学習データセット(CASIA-Webface 対 MS-Celeb-1M)の選択が、異なる損失関数の性能にどのように影響するか?
  • RQ3ピークテスト精度に到達するまでのエポック数が最も少ないのはどの損失関数か?
  • RQ4訓練精度およびテスト精度のトレンドは損失関数ごとにどのように異なるか?特に安定性が最も高いのはどれか?
  • RQ5アーキテクチャ(ResNet50 対 MobileNet)が損失関数の相対的性能に顕著な影響を及えるか?

主な発見

  • ResNet50を用いてCASIA-Webfaceで学習した場合、ArcFaceはLFWデータセットで99.35%の最高テスト精度を達成し、他のすべての損失関数を上回った。
  • ArcFace損失は最も速い収束速度を示し、MS-Celeb-1MでResNet50を学習した場合、13エポック目にピーク性能に到達した。
  • ArcFaceの平均テスト精度は99.01%で、標準偏差が0.305と低く、エポックにわたる安定性と一貫性のある性能を示した。
  • MobileNetv1でCASIA-Webfaceを学習した場合、加法的マージンソフトマックスが95.12%の最高訓練精度を達成したが、テスト精度と収束速度では遅れを取った。
  • CASIA-Webfaceで学習したモデルは、MS-Celeb-1Mで学習したモデルよりも常に優れた性能を示し、これはCASIA-Webfaceのノイズが少なく、データ品質が優れているためと推定される。
  • MS-Celeb-1Mで学習した場合、ResNet50はMobileNetよりも収束が速かったが、加法的マージンソフトマックスを除き、両アーキテクチャで15エポック目に収束した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。