QUICK REVIEW

[논문 리뷰] A Performance Comparison of Loss Functions for Deep Face Recognition

Yash Srivastava, Vaishnav Murali|arXiv (Cornell University)|2019. 01. 01.

Face recognition and analysis참고 문헌 39인용 수 25

한 줄 요약

이 논문은 ResNet50와 MobileNet을 사용하여 CASIA-Webface와 MS-Celeb-1M 데이터셋에서 훈련하고 LFW에서 테스트하는 깊이 강화된 얼굴 인식에서 다섯 가지 딥 손실 함수—Cross-Entropy, Angular-Softmax, Additive-Margin Softmax, ArcFace, Marginal Loss—를 평가한다. ArcFace는 가장 높은 정확도(99.35%)와 가장 빠른 수렴 속도를 기록하여 아키텍처와 데이터셋 간에 성능과 안정성 측면에서 모두 우수한 성능을 보였다.

ABSTRACT

Face recognition is one of the most widely publicized feature in the devices today and hence represents an important problem that should be studied with the utmost priority. As per the recent trends, the Convolutional Neural Network (CNN) based approaches are highly successful in many tasks of Computer Vision including face recognition. The loss function is used on the top of CNN to judge the goodness of any network. In this paper, we present a performance comparison of different loss functions such as Cross-Entropy, Angular Softmax, Additive-Margin Softmax, ArcFace and Marginal Loss for face recognition. The experiments are conducted with two CNN architectures namely, ResNet and MobileNet. Two widely used face datasets namely, CASIA-Webface and MS-Celeb-1M are used for the training and benchmark Labeled Faces in the Wild (LFW) face dataset is used for the testing.

연구 동기 및 목표

다양한 네트워크 아키텍처와 훈련 데이터 조건에서 현대적인 딥 손실 함수의 성능을 평가하고 비교하기 위해.
다양한 손실 함수가 딥 컨볼루션 네트워크에서 훈련 정확도, 테스트 정확도 및 수렴 속도에 미치는 영향을 평가하기 위해.
경량형(MobileNet)과 깊이 있는(ResNet) 아키텍처 간에 가장 높은 일반화 능력과 안정성을 보이는 손실 함수를 규명하기 위해.
훈련 데이터셋(CASIA-Webface 대비 MS-Celeb-1M)이 모델 성능 및 손실 함수의 효과성에 미치는 영향을 분석하기 위해.
연구자 및 실무자들이 얼굴 인식 시스템을 구축할 때 최적의 손실 함수를 선택하는 데 실증적 지침을 제공하기 위해.

제안 방법

특징 추출 및 얼굴 인식 분류를 위해 두 가지 CNN 아키텍처인 ResNet50와 MobileNetv1을 사용한다.
다섯 가지 손실 함수를 평가한다: Cross-Entropy, Angular-Softmax(A-Softmax), Additive-Margin Softmax, ArcFace, Marginal Loss. 각 손실 함수는 특징의 구분 능력을 향상시키기 위해 설계되었다.
훈련에는 두 가지 대규모 얼굴 인식 데이터셋인 CASIA-Webface와 MS-Celeb-1M를 사용하고, 테스트에는 Labeled Faces in the Wild(LFW)를 사용한다.
훈련는 20 에포크 동안 수행되며, 평가 지표로는 훈련 정확도, 테스트 정확도, 수렴 속도(정점 성능에 도달하는 데 소요된 에포크 수)를 포함한다.
수렴 속도는 LFW에서 가장 높은 테스트 정확도에 도달하는 데 필요한 최소 에포크 수로 정의된다.
통계 분석은 에포크 10~20 사이의 테스트 정확도 평균과 표준편차를 계산하여 모델의 안정성과 수렴 행동을 평가한다.

실험 결과

연구 질문

RQ1다양한 CNN 아키텍처에서 LFW 벤치마크에서 가장 높은 얼굴 인식 정확도를 달성하는 손실 함수는 무엇인가?
RQ2훈련 데이터셋(CASIA-Webface 대비 MS-Celeb-1M)의 선택이 다양한 손실 함수의 성능에 어떤 영향을 미치는가?
RQ3피크 테스트 정확도에 도달하는 데 소요된 에포크 수 기준으로 가장 빠른 수렴 속도를 보이는 손실 함수는 무엇인가?
RQ4각 손실 함수에 따라 훈련 및 테스트 정확도 추세는 어떻게 변화하며, 어떤 손실 함수가 가장 안정적인 성능를 보이는가?
RQ5아키텍처(ResNet50 대비 MobileNet)의 선택이 손실 함수의 상대적 성능에 유의미한 영향을 미치는가?

주요 결과

ArcFace는 ResNet50를 사용하여 CASIA-Webface에서 훈련했을 때 LFW 데이터셋에서 가장 높은 테스트 정확도 99.35%를 기록하여 다른 모든 손실 함수를 압도했다.
ArcFace 손실 함수는 MS-Celeb-1M에서 ResNet50를 훈련할 때 가장 빠른 수렴 속도를 보였으며, 정점 성능에 도달하는 데 13번째 에포크에 도달했다.
ArcFace의 평균 테스트 정확도는 99.01%였고 표준편차가 0.305로 낮아, 에포크 간 높은 안정성과 일관된 성능를 보였다.
Additive-Margin Softmax는 CASIA-Webface에서 MobileNetv1을 사용할 때 가장 높은 훈련 정확도(95.12%)를 기록했지만, 테스트 정확도와 수렴 속도에서 뒤처졌다.
CASIA-Webface에서 훈련한 모델은 항상 MS-Celeb-1M에서 훈련한 모델보다 성능이 뛰어났는데, 이는 CASIA-Webface가 더 낮은 노이즈와 더 나은 데이터 품질을 갖기 때문으로 보인다.
MS-Celeb-1M에서 훈련했을 때 ResNet50는 대부분의 손실 함수에서 MobileNet보다 수렴 속도가 빨랐지만, Additive-Margin Softmax의 경우 양 아키텍처에서 모두 15번째 에포크에 수렴했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.