QUICK REVIEW

[논문 리뷰] When Face Recognition Meets with Deep Learning: an Evaluation of Convolutional Neural Networks for Face Recognition

Guosheng Hu, Yongxin Yang|arXiv (Cornell University)|2015. 04. 09.

Face recognition and analysis참고 문헌 22인용 수 38

한 줄 요약

이 논문은 공개된 LFW 데이터셋에서 직접 여러 아키텍처를 훈련하고 비교하여 얼굴 인식을 위한 합성곱 신경망(CNNs)을 평가한다. 네트워크 융합과 메트릭 학습이 성능을 크게 향상시킨다는 것을 입증한다. 저자들은 LFW에서 훈련한 세 가지 새로운 CNN 아키텍처를 제안하며, 공동 베이지안 메트릭 학습을 사용해 87.63%의 정확도를 달성한다. 또한 전체 재현 가능성을 위해 코드와 모델을 공개하여 얼굴 인식 연구 분야의 새로운 공개 기준을 설정한다.

ABSTRACT

Deep learning, in particular Convolutional Neural Network (CNN), has achieved promising results in face recognition recently. However, it remains an open question: why CNNs work well and how to design a 'good' architecture. The existing works tend to focus on reporting CNN architectures that work well for face recognition rather than investigate the reason. In this work, we conduct an extensive evaluation of CNN-based face recognition systems (CNN-FRS) on a common ground to make our work easily reproducible. Specifically, we use public database LFW (Labeled Faces in the Wild) to train CNNs, unlike most existing CNNs trained on private databases. We propose three CNN architectures which are the first reported architectures trained using LFW data. This paper quantitatively compares the architectures of CNNs and evaluate the effect of different implementation choices. We identify several useful properties of CNN-FRS. For instance, the dimensionality of the learned features can be significantly reduced without adverse effect on face recognition accuracy. In addition, traditional metric learning method exploiting CNN-learned features is evaluated. Experiments show two crucial factors to good CNN-FRS performance are the fusion of multiple CNNs and metric learning. To make our work reproducible, source code and models will be made publicly available.

연구 동기 및 목표

공개된 훈련 데이터를 사용하지 않은 동일한 데이터셋에서 CNN 기반 얼굴 인식 시스템(CNN-FRS)에 대한 체계적이고 재현 가능한 평가를 수행하여 비공개 훈련 데이터에 의한 편향을 방지한다.
깊이, 필터 수, 레이어 설계와 같은 아키텍처 선택이 얼굴 인식 성능에 미치는 영향을 조사한다.
데이터 증강, 입력 유형(컬러 대비 회색조), 유사도 메트릭과 같은 구현 요소를 평가한다.
특징 차원 감소와 후속 메트릭 학습이 인식 정확도에 미치는 영향을 정량화한다.
공개된 훈련 모델과 소스 코드를 통해 완전히 재현 가능한 기준을 제공한다.

제안 방법

공개된 LFW 데이터셋에서 세 가지 새로운 CNN 아키텍처를 훈련하여 서로 간의 공정한 비교를 가능하게 한다.
다중 스케일, 다중 코너 네트워크 융합을 구현하기 위해 6개의 스케일에서 코너와 중심에서 30개의 패치를 추출하고 각각의 패치에 대해 개별 네트워크를 훈련한다.
16개의 최고 성능을 보인 융합 네트워크에서 추출한 특징을 연결하여 강력하고 고용량의 얼굴 표현을 형성한다.
공동 베이지안(JB) 메트릭 학습을 적용하기 전에 특징 차원을 2560에서 320으로 감소시키기 위해 주성분 분석(PCA)을 적용한다.
교차 검증을 위해 LFW 데이터셋의 표준 분할을 사용하고 표준 얼굴 인식 정확도 메트릭을 사용해 성능을 평가한다.
단일 네트워크, 융합 네트워크, 메트릭 학습 변형 간의 결과를 비교하여 성능 향상 요인을 분리한다.

실험 결과

연구 질문

RQ1LFW와 같이 공개된 데이터셋에서 훈련하는 것은 비공개 데이터베이스에 비해 CNN 기반 얼굴 인식 시스템의 성능과 재현 가능성에 어떤 영향을 미치는가?
RQ2다양한 크기와 영역에서 다수의 코너 패치를 사용할 경우 네트워크 융합이 얼굴 인식 정확도에 미치는 정량적 영향은 무엇인가?
RQ3공동 베이지안과 같은 메트릭 학습은 CNN으로 학습된 특징의 분류 능력을 어느 정도 향상시키는가?
RQ4CNN으로 학습된 특징을 사용할 경우 특징 차원 감소는 정확도에 어떤 영향을 미치는가?
RQ5필터 수, 깊이, 입력 유형과 같은 아키텍처 및 구현 선택 중에서 CNN-FRS 성능에 가장 크게 영향을 주는 요소는 무엇인가?

주요 결과

30개의 패치(다양한 스케일과 영역에서)에서 유도된 16개의 최고 성능 네트워크를 융합함으로써 단일 네트워크 대비 4.51% 향상된 83.33%의 정확도를 달성하였다.
다양한 CNN 네트워크의 융합은 얼굴 구성 요소의 공간적 및 스케일 변형을 포괄함으로써 성능을 크게 향상시킨다.
PCA로 감소된 특징(2560에서 320 차원)에 공동 베이지안(JB) 메트릭 학습을 적용한 결과, 모든 LFW 분할에서 일관되게 정확도가 향상되었다.
최종 시스템은 네트워크 융합과 메트릭 학습을 적용해 87.63%의 정확도를 달성하였으며, 낮은 특징 차원이지만 몇몇 비상업적 최신 기법들을 능가하였다.
특징 차원을 320으로 크게 감소시켜도 성능 저하 없이 유지되었으며, 이는 CNN으로 학습된 표현의 높은 효율성을 시사한다.
공개된 코드와 모델을 통해 제안된 방법은 향후 얼굴 인식 연구를 위한 완전히 재현 가능한 기준을 설정한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.