QUICK REVIEW

[논문 리뷰] Face Transformer for Recognition

Yaoyao Zhong, Weihong Deng|arXiv (Cornell University)|2021. 03. 27.

Face recognition and analysis참고 문헌 31인용 수 45

한 줄 요약

이 논문은 얼굴 인식에 Transformer 모델을 적용하는 것을 탐구하고, 패치 간 정보를 포착하기 위해 겹치는 패치 토큰을 도입하며, MS-Celeb-1M에서 학습했을 때 CNN과의 경쟁력 있는 결과를 보임.

ABSTRACT

Recently there has been a growing interest in Transformer not only in NLP but also in computer vision. We wonder if transformer can be used in face recognition and whether it is better than CNNs. Therefore, we investigate the performance of Transformer models in face recognition. Considering the original Transformer may neglect the inter-patch information, we modify the patch generation process and make the tokens with sliding patches which overlaps with each others. The models are trained on CASIA-WebFace and MS-Celeb-1M databases, and evaluated on several mainstream benchmarks, including LFW, SLLFW, CALFW, CPLFW, TALFW, CFP-FP, AGEDB and IJB-C databases. We demonstrate that Face Transformer models trained on a large-scale database, MS-Celeb-1M, achieve comparable performance as CNN with similar number of parameters and MACs. To facilitate further researches, Face Transformer models and codes are available at https://github.com/zhongyy/Face-Transformer.

연구 동기 및 목표

Transformers 아키텍처를 얼굴 인식에 적용하는 가능성을 조사한다.
Transformer의 성능이 유사한 매개변수 수와 MACs를 가진 CNN과 같거나 더 우수한지 평가한다.
패치 간 정보 포착에 대한 겹침(오버랩) 여부가 어떤 영향을 미치는지 분석한다.
대규모 얼굴 데이터 세트에서 학습된 Transformer 모델의 표준 벤치마크에서의 성능을 평가한다.

제안 방법

ViT 스타일의 Transformer를 적용하여 겹치는 이미지 패치를 토큰으로 생성한다.
패치를 모델 차원 D로 매핑하기 위해 학습 가능한 선형 프로젝션을 사용한다.
클래스 토큰을 연결하고 LayerNorm 및 잔차 연결이 있는 표준 Transformer 인코더를 적용한다.
구분 가능한 임베딩을 강화하기 위해 CosFace 손실로 학습한다.
비교대상으로 ResNet-100 및 다른 Vision Transformer(ViT, T2T-ViT) 등을 서로 다른 학습 데이터 세트에서 비교한다.
출력 임베딩에 코사인-마진 소프트맥스 손실을 적용하여 검증을 수행한다.

실험 결과

연구 질문

RQ1대규모 데이터 세트에서 학습될 때 Transformer 모델이 CNN과 비교하여 얼굴 인식에 효과적일 수 있는가?
RQ2겹치는 패치 토큰 생성이 패치 간 정보 포착 및 인식 성능을 향상시키는가?
RQ3MS-Celeb-1M에서 학습된 Face Transformer가 비슷한 복잡성의 CNN 기반 모델에 비해 주류 벤치마크에서 어떻게 성능을 내는가?

주요 결과

MS-Celeb-1M에서 학습된 Face Transformer 모델은 유사한 매개변수 수와 MACs를 가진 CNN과 경쟁력 있는 정확도를 달성한다.
겹치는 패치 토큰(슬라이딩 패치)은 비겹침 ViT 변 variant보다 성능을 향상시킨다.
대규모 데이터 세트에서 학습된 Transformer 모델은 TALFW 및 기타 벤치마크에서도 강력한 성능을 보인다.
가려짐이 증가함에 따라 Occlusion에 대한 강건성은 ResNet-100을 능가하지 못한다.
주의(attention) 분석은 모델이 얼굴 영역에 주목함을 시사하며, 이 아키텍처 설계를 정당화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.