QUICK REVIEW

[논문 리뷰] Age and Gender Prediction From Face Images Using Attentional Convolutional Network

AmirAli Abdolrashidi, Mehdi Minaei|arXiv (Cornell University)|2020. 10. 08.

Face recognition and analysis참고 문헌 25인용 수 27

한 줄 요약

이 논문은 얼굴 이미지에서 연령과 성별을 동시에 예측하기 위해 주의 메커니즘과 잔차 합성곱 신경망을 조합한 앙상블 딥 러닝 프레임워크를 제안한다. 다중 작업 학습, 주의 메커니즘을 통해 눈에 띄는 얼굴 영역(예: 주름, 얼굴 윤곽선)에 집중하고, 예측된 성별을 연령 분지에 통합함으로써, UTKFace 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 연령 정확도 91.3%와 성별 정확도 96.5%를 기록하였다.

ABSTRACT

Automatic prediction of age and gender from face images has drawn a lot of attention recently, due it is wide applications in various facial analysis problems. However, due to the large intra-class variation of face images (such as variation in lighting, pose, scale, occlusion), the existing models are still behind the desired accuracy level, which is necessary for the use of these models in real-world applications. In this work, we propose a deep learning framework, based on the ensemble of attentional and residual convolutional networks, to predict gender and age group of facial images with high accuracy rate. Using attention mechanism enables our model to focus on the important and informative parts of the face, which can help it to make a more accurate prediction. We train our model in a multi-task learning fashion, and augment the feature embedding of the age classifier, with the predicted gender, and show that doing so can further increase the accuracy of age prediction. Our model is trained on a popular face age and gender dataset, and achieved promising results. Through visualization of the attention maps of the train model, we show that our model has learned to become sensitive to the right regions of the face.

연구 동기 및 목표

조명, 자세, 가림 등으로 인한 얼굴 이미지 내의 높은 클래스 내 변동성으로 인해 연령 및 성별 예측 정확도가 제한되는 문제를 해결한다.
주의 메커니즘을 활용해 가장 정보적인 얼굴 영역에 집중함으로써 예측 성능을 향상시킨다.
연령 분지에 성별 예측 결과를 조건부 입력으로 통합함으로써 연령 예측 정확도를 향상시킨다.
연령 및 성별 예측을 동시에 최적화하는 다중 작업 학습 프레임워크를 개발한다.
주의 맵의 시각화를 통해 모델의 의사결정 과정에서 사용된 주요 얼굴 특징을 식별함으로써 모델의 해석 가능성을 높인다.

제안 방법

눈, 주름, 얼굴 윤곽선과 같은 중요한 얼굴 영역에 동적으로 집중할 수 있도록 주의 메커니즘을 갖춘 합성곱 신경망(Attn-CNN)을 활용한다.
특징 표현 학습을 향상시키기 위해 보완적인 백본 모델로 잔차 신경망(ResNet)을 통합한다.
Attn-CNN과 ResNet의 예측 확률을 평균화하여 최종 분류 결정을 내리는 앙상블 전략을 구현한다.
공유된 합성곱 특징을 사용하여 연령과 성별을 동시에 예측하는 다중 작업 학습을 구현한다.
연령 예측 분지에 예측된 성별 임베딩을 추가하여 연령 추정 성능을 향상시킨다.
분류에 대한 교차 엔트로피 손실과 연령 버킷 예측에 대한 평균 절대 오차를 사용하여 UTKFace 데이터셋에서 모델을 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1주의 메커니즘이 가장 정보적인 얼굴 영역에 집중함으로써 연령 및 성별 예측 성능을 향상시킬 수 있는가?
RQ2다중 작업 학습을 통해 연령과 성별 예측을 동시에 학습하면 단일 작업 학습보다 성능이 향상되는가?
RQ3예측된 성별을 조건부 신호로 연령 예측 분지에 통합하면 연령 추정 정확도가 추가로 향상되는가?
RQ4주의 메커니즘과 잔차 신경망의 앙상블이 개별 모델보다 얼마나 뛰어난 성능을 보이는가?
RQ5주의 맵이 연령 및 성별 예측의 모델 의사결정 과정에 대해 의미 있는 시각적 설명을 제공할 수 있는가?

주요 결과

앙상블 모델은 연령 범주 분류에서 91.3%의 정확도와 성별 분류에서 96.5%의 정확도를 기록하였으며, 개별 Attn-CNN(74.2% 및 55.2%) 및 ResNet(90.0% 및 96.5%) 모델보다 뛰어난 성능을 보였다.
평균 연령 버킷 절대 오차(AABD)는 0.11로 감소하여 연령 그룹 추정의 높은 정밀도를 나타냈다.
모델의 주의 맵은 주름, 눈 윤곽선, 얼굴 가장자리와 같은 주요 특징을 명확히 강조하며, 모델이 관련 영역에 집중하고 있음을 확인했다.
혼동 행렬을 통해 대부분의 예측 결과가 주대각선에 위치해 있으며, 30–40세 그룹 이미지가 20–30세로 잘못 분류되는 경우가 가장 높은 오류율을 보였다.
성별 예측 확률 분포는 대부분의 점수가 극단(0 또는 1에 가까운 값)에 집중되어 있어 낮은 불확실성을 나타내었으며, 높은 신뢰도를 보였다.
성별 예측 결과를 연령 분지에 통합함으로써 연령 예측 정확도가 크게 향상되었으며, 이는 상호 작업 감독의 가치를 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.