QUICK REVIEW

[논문 리뷰] Deep Joint Face Hallucination and Recognition

Junyu Wu, Shengyong Ding|arXiv (Cornell University)|2016. 11. 24.

Facial Nerve Paralysis Treatment and Research참고 문헌 25인용 수 33

한 줄 요약

이 논문은 저해상도(LR) 얼굴 이미지의 화질 향상과 인식을 동시에 수행하는 종단간(end-to-end) 딥 컨volution 네트워크를 제안한다. 이는 계단식 아키텍처를 통해 두 작업을 함께 훈련시킴으로써 실현된다. 훈련 중 화질 향상 및 인식 손실를 동시에 최적화함으로써, 4배 축소된 LFW에서는 97.95%의 정확도를, YTF에서는 90.65%의 정확도를 달성하여 별도의 인식 모델보다 뛰어나며, 화질 향상 전용 미세조정보다도 인식 성능 향상이 뛰어나다는 것을 입증한다.

ABSTRACT

Deep models have achieved impressive performance for face hallucination tasks. However, we observe that directly feeding the hallucinated facial images into recog- nition models can even degrade the recognition performance despite the much better visualization quality. In this paper, we address this problem by jointly learning a deep model for two tasks, i.e. face hallucination and recognition. In particular, we design an end-to-end deep convolution network with hallucination sub-network cascaded by recognition sub-network. The recognition sub- network are responsible for producing discriminative feature representations using the hallucinated images as inputs generated by hallucination sub-network. During training, we feed LR facial images into the network and optimize the parameters by minimizing two loss items, i.e. 1) face hallucination loss measured by the pixel wise difference between the ground truth HR images and network-generated images; and 2) verification loss which is measured by the classification error and intra-class distance. We extensively evaluate our method on LFW and YTF datasets. The experimental results show that our method can achieve recognition accuracy 97.95% on 4x down-sampled LFW testing set, outperforming the accuracy 96.35% of conventional face recognition model. And on the more challenging YTF dataset, we achieve recognition accuracy 90.65%, a margin over the recognition accuracy 89.45% obtained by conventional face recognition model on the 4x down-sampled version.

연구 동기 및 목표

화질 향상된 저해상도(LR) 얼굴 이미지가 시각적 품질은 향상되었음에도 불구하고 인식 성능이 떨어지는 문제를 해결하기 위해.
단일 종단간 딥 네트워크 내에서 얼굴 화질 향상과 인식을 공동 최적화하여 훈련 중 상호 피드백을 가능하게 하기 위해.
분류 가능한 표현 학습을 위한 중간 특징으로 화질 향상된 출력을 활용하여, 저해상도 얼굴 이미지에서의 인식 정확도를 향상시키기 위해.
공동 훈련이 별도의 훈련 또는 사전 훈련된 초해상도(SR) 네트워크를 특징 추출기로 사용하는 것보다 더 나은 화질 향상 및 인식 성능을 낳는다는 것을 입증하기 위해.

제안 방법

저해상도(LR) 입력이 먼저 향상되고, 그 결과물이 인식 브랜치로 전달되는 계단식 아키텍처를 가진 종단간 CNN을 설계한다. 이는 화질 향상 하위망과 인식 하위망이 연결된 형태이다.
이중 스트림 손실 함수를 사용한다: (1) 생성된 고해상도(HR) 이미지와 진짜 HR 이미지 간의 픽셀 단위 L2 손실을 화질 향상에 적용하고, (2) 특징 공간 내 분류 오차와 내부 클래스 거리 기반의 통합 인식 손실을 적용한다.
심층 특징 공간 내에서 내부 클래스 분산을 최소화하고 클래스 간 간격을 최대화하기 위해 중심 손실(Center Loss) 공식을 적용한다.
모든 네트워크를 종단간으로 훈련시키며, LR-CASIA 이미지를 입력으로, HR-CASIA 이미지를 목표로 하며, 정체성 레이블을 통한 감독을 제공한다.
화질 향상 및 인식 손실의 가중 합을 사용하여 작업 목표를 균형 잡기 위해, 초파rameter α=0.01, β₁=1, β₂=0.008를 설정한다.
단일 TITAN X GPU를 사용하며, 28,000 에포크 동안 훈련을 수행하며, 16,000 및 24,000 반복 후 학습률 감소를 적용한다.

실험 결과

연구 질문

RQ1화질 향상 및 인식 네트워크를 공동으로 훈련할 경우, 별도로 훈련하는 것보다 저해상도 얼굴 이미지에서 인식 정확도가 향상되는가?
RQ2딥 네트워크에 의해 생성된 화질 향상된 이미지를 인식 모델의 입력으로 사용할 경우, 인식 성능 향상이 이루어지는가?
RQ3종단간 공동 최적화가 사전 훈련된 초해상도 네트워크를 특징 추출기로 사용하는 것보다 더 나은 화질 향상 품질과 인식 정확도를 낳는가?
RQ4LFW 및 YTF 데이터셋의 축소된 버전에서 시험했을 때, 공동 모델은 기존의 얼굴 인식 모델보다 어떻게 비교되는가?

주요 결과

공동 모델은 4배 축소된 LFW 데이터셋에서 97.95%의 인식 정확도를 달성하여, 별도의 인식 모델의 96.35%보다 뛰어나다.
더 도전적인 YTF 데이터셋에서는 공동 모델이 90.65%의 정확도를 기록하여, 동일한 저해상도 테스트 세트에서 기존 모델의 89.45%보다 1.2% 높은 성능을 보였다.
화질 향상된 이미지를 사용해 인식 네트워크를 훈련시키는 설정(97.61% on LFW)보다도 공동 훈련이 더 나은 일반화 성능을 낳는다는 것을 확인하여, 공동 훈련이 더 유리함을 입증한다.
공동 모델은 별도의 SRCNN 및 SRNET보다 略적으로 더 나은 화질 향상 결과를 내며, CASIA-WebFace 데이터셋에서 PSNR가 0.01 dB 향상되었다.
저해상도 YTF에서의 인식 성능은 화질 향상 훈련 시 88.20%에서 공동 훈련 시 90.95%로 향상되어, 공동 최적화가 특징의 분류 가능성을 향상시킨다는 것을 시사한다.
제거 분석(ablation study)은 사전 훈련된 SR 네트워크에서 유도된 화질 향상된 이미지가 인식 성능을 떨어뜨린다는 것을 확인했다(저해상도 LFW에서 96.30% 대비 96.35%). 이는 공동 학습의 필요성을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.