QUICK REVIEW

[논문 리뷰] LARNet: Lie Algebra Residual Network for Face Recognition

Xiaolong Yang, Xiaohong Jia|arXiv (Cornell University)|2021. 03. 15.

Face recognition and analysis참고 문헌 64인용 수 24

한 줄 요약

LARNet는 3D 얼굴 회전을 컨volution 신경망 특징 공간에서의 덧셈 잔차 성분으로 모델링하는 리 대수 기반 잔차 네트워크를 제안한다. 이는 자세에 강인한 얼굴 인식을 가능하게 한다. 회전을 회전 불변 특징과 분리하고, 게이팅 서브넷을 통해 회전 크기를 학습함으로써 LARNet는 정면-측면 및 일반 얼굴 인식 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Face recognition is an important yet challenging problem in computer vision. A major challenge in practical face recognition applications lies in significant variations between profile and frontal faces. Traditional techniques address this challenge either by synthesizing frontal faces or by pose invariant learning. In this paper, we propose a novel method with Lie algebra theory to explore how face rotation in the 3D space affects the deep feature generation process of convolutional neural networks (CNNs). We prove that face rotation in the image space is equivalent to an additive residual component in the feature space of CNNs, which is determined solely by the rotation. Based on this theoretical finding, we further design a Lie Algebraic Residual Network (LARNet) for tackling pose robust face recognition. Our LARNet consists of a residual subnet for decoding rotation information from input face images, and a gating subnet to learn rotation magnitude for controlling the strength of the residual component contributing to the feature learning process. Comprehensive experimental evaluations on both frontal-profile face datasets and general face recognition datasets convincingly demonstrate that our method consistently outperforms the state-of-the-art ones.

연구 동기 및 목표

정면과 측면 뷰 간의 자세 변동 문제를 해결하기 위해.
리 대수를 사용하여 3D 얼굴 회전이 CNN의 딥 특징 학습에 미치는 영향을 이론적으로 모델링하기 위해.
회전 정보를 명시적으로 인코딩하여 특징의 강인성을 향상시키기 위한 새로운 신경망 아키텍처를 설계하기 위해.
정면-측면 및 일반 얼굴 인식 데이터셋에서 기존 최신 기술 수준의 방법들을 능가하기 위해.

제안 방법

리 대수 이론을 활용하여 3D 얼굴 회전이 입력 이미지에 관계없이 CNN 특징 공간에서 덧셈 잔차 성분을 유도한다는 것을 증명한다.
SO(3) 리 군 구조에서 유도된 기하학적 사전 지식을 사용하여 입력 얼굴 이미지에서 회전 정보를 디코딩하는 잔차 서브넷을 설계한다.
회전 크기를 학습하여 특징 학습에서 잔차 성분의 강도를 동적으로 제어하는 게이팅 서브넷을 도입한다.
잔차 성분을 특징 공간 내에서 회전에 의존하는 벡터로 설정하고, 이를 회전 각도와 축에 따라 매개변수화한다.
정체성 분류와 회전 추정을 동시에 최적화하는 공동 손실을 사용하여 네트워크를 엔드 투 엔드로 훈련한다.
이미지 공간의 회전과 특징 공간의 잔차 간 이론적 동치성을 활용하여 자세 불변성을 위한 특징 학습을 정규화한다.

실험 결과

연구 질문

RQ1리 대수를 사용하여 이미지 공간에서의 3D 얼굴 회전을 CNN 특징 공간에서 덧셈 잔차로 수학적으로 모델링할 수 있는가?
RQ2딥 신경망에서 자세에 강인한 특징 학습을 위해 회전 정보를 효과적으로 디코딩하고 매개변수화할 수 있는가?
RQ3학습된 게이팅 메커니즘이 자세 변동에 걸쳐 일반화 성능을 향상시킬 수 있는가?
RQ4제안된 리 대수 기반 잔차 설계가 다양한 얼굴 인식 벤치마크에서 최신 기술 수준의 방법들보다 일관된 성능 향상을 이끌 수 있는가?

주요 결과

이론적 분석을 통해 3D 얼굴 회전이 오직 회전에 의해 매개변수화된 CNN 특징 공간에서 덧셈 잔차를 유도한다는 것을 증명하였다.
LARNet는 정면-측면 얼굴 인식 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 이전 방법들을 능가하였다.
다양한 일반 얼굴 인식 벤치마크에서 일관된 향상이 나타나, 강력한 일반화 능력을 보였다.
제거 실험 결과에서 잔차 서브넷과 게이팅 메커니즘이 최적 성능을 내기 위해 필수적임을 확인하였다.
특히 도전적인 측면에서 정면으로의 얼굴 인식 작업에서 큰 자세 변동에 대해 강건함을 보였다.
리 대수의 사용은 대규모 자세 증강 데이터가 필요 없이도 기하학적으로 탄탄한 유도적 편향을 제공하여 특징 학습을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.