QUICK REVIEW

[논문 리뷰] Masked Contrastive Graph Representation Learning for Age Estimation

Yuntao Shou, Xiangyong Cao|arXiv (Cornell University)|2023. 06. 16.

Face recognition and analysis인용 수 8

한 줄 요약

MCGRL은 구조적 그래프 정보를 시맨틱 CNN 특징과 융합하는 마스크드 그래프 컨볼루션 프레임워크를 도입하여 연령 추정의 구분력과 일반화를 향상시키기 위해 대비 학습을 활용합니다. MORPH, FG-NET, CACD 데이터셋에서 최첨단 방법들을 능가합니다.

ABSTRACT

Age estimation of face images is a crucial task with various practical applications in areas such as video surveillance and Internet access control. While deep learning-based age estimation frameworks, e.g., convolutional neural network (CNN), multi-layer perceptrons (MLP), and transformers have shown remarkable performance, they have limitations when modelling complex or irregular objects in an image that contains a large amount of redundant information. To address this issue, this paper utilizes the robustness property of graph representation learning in dealing with image redundancy information and proposes a novel Masked Contrastive Graph Representation Learning (MCGRL) method for age estimation. Specifically, our approach first leverages CNN to extract semantic features of the image, which are then partitioned into patches that serve as nodes in the graph. Then, we use a masked graph convolutional network (GCN) to derive image-based node representations that capture rich structural information. Finally, we incorporate multiple losses to explore the complementary relationship between structural information and semantic features, which improves the feature representation capability of GCN. Experimental results on real-world face image datasets demonstrate the superiority of our proposed method over other state-of-the-art age estimation approaches.

연구 동기 및 목표

강력한 얼굴 이미지 연령 추정을 위해 상당한 중복 정보를 가진 데이터를 견인합니다.
그래프 기반 표현을 통해 비정규적 이미지 영역의 구조적 관계를 포착합니다.
대비 학습을 통해 시맨틱(CNN 기반) 특징과 그래프 구조 표현을 융합합니다.
클래스 내 변이 감소 및 클래스 간 차이 증대를 통해 일반화를 향상합니다.

제안 방법

얼굴 이미지를 패치로 분할하여 그래프 노드로 삼고 K-NN 그래프를 구성합니다.
마스크 기반 증강을 활용한 구조적 임베딩을 얻기 위해 마스크드 그래프 컨볼루션 네트워크(GCN)를 사용합니다.
CNN+MLP 특징으로 앵커 임베딩을 생성하고, 마스킹 및 행 셔플링으로 양성/음성 샘플을 만듭니다.
거리의 제어를 강화하기 위해 양성 샘플을 정렬하고 음성 샘플을 분리하기 위해 L_N, L_M, 상한 L_V가 포함된 복수 손실 함수를 적용합니다.
구조적 정보와 시맨틱 정보를 융합하고 판별력을 개선하기 위해 세 가지 손실 항으로 학습합니다.

실험 결과

연구 질문

RQ1마스크드 그래프 기반 표현이 일반 CNN/ViT 접근 방식보다 견고한 구조 정보를 연령 추정에 포착할 수 있는가?
RQ2마스크드 GCN 양성 샘플과 셔플된 음성 샘플을 이용한 대비 학습이 연령 추정 정확도와 데이터셋 간 일반화를 향상시키는가?
RQ3그래프 컨볼루션 변형 및 마스킹 비율이 연령 추정 성능에 어떤 영향을 미치는가?
RQ4다양한 데이터 간 평가에서 MCGRL이 최첨단 방법들과 비교해 얼마나 일반화되는가?

주요 결과

데이터셋	MAE (MCGRL)	CS (%) (MCGRL)	데이터셋 (비교)	MAE (최고 경쟁자)	CS (%) (최고 경쟁자)	데이터셋 (최고 전체)	MAE (최고 전체)	CS (%) (최고 전체)
MORPH	2.39	89.9	MORPH (comparison)	2.42–4.03	70.1–87.4	MORPH (best overall)	2.39	89.9
FG-NET	2.86	88.0	FG-NET (comparison)	3.74–5.79	66.5–74.5	FG-NET (best overall)	2.86	88.0
CACD	4.03	80.1	CACD (comparison)	4.03–6.52	60.0–72.8	CACD (best overall)	4.03	80.1

MCGRL은 MORPH, FG-NET, CACD 데이터셋에서 평균 절대 오차(MAE)와 누적 점수(CS %)에서 우수한 성과를 보이며, 예를 들어 MORPH에서 MAE 2.39, CS 89.9%를 달성했습니다.
크로스-데이터셋 평가에서 MCGRL은 FG-NET, MORPH, FACES, SC-FACE 변형에서 경쟁 방법들을 능가하며 CS에서 유의한 이점을 보였습니다.
소거 연구(ablation) 결과 L_N, L_M, L_V 손실의 결합이 데이터셋 전반에서 최적의 성능을 보임을 확인했습니다.
제안된 손실을 가진 Max-Relative GraphConv가 MORPH, FG-NET, CACD에서 최고 MAE를 제공합니다.
마스킹 비율 분석에서 평가 데이터셋에서 최적의 MAE를 보이는 마스킹은 p = 0.6으로 나타났습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.