QUICK REVIEW

[논문 리뷰] Generative Adversarial Network-based Synthesis of Visible Faces from Polarimetric Thermal Faces

He Zhang, Vishal M. Patel|arXiv (Cornell University)|2017. 08. 08.

Face recognition and analysis참고 문헌 28인용 수 34

한 줄 요약

이 논문은 GAN 기반 방법인 GAN-VFS를 제안하여, 가시 특징 추출과 이미지 복원을 동시에 최적화함으로써 펄라리메트릭 열화상 이미지에서 사진 수준의 가시 얼굴 이미지를 합성한다. 가이던스 서브넷을 통합하고, 정체성 손실과 지각 손실을 결합함으로써, 실제 펄라리메트릭-가시 데이터셋에서 이미지 품질과 얼굴 인식 정확도 면에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

The large domain discrepancy between faces captured in polarimetric (or conventional) thermal and visible domain makes cross-domain face recognition quite a challenging problem for both human-examiners and computer vision algorithms. Previous approaches utilize a two-step procedure (visible feature estimation and visible image reconstruction) to synthesize the visible image given the corresponding polarimetric thermal image. However, these are regarded as two disjoint steps and hence may hinder the performance of visible face reconstruction. We argue that joint optimization would be a better way to reconstruct more photo-realistic images for both computer vision algorithms and human-examiners to examine. To this end, this paper proposes a Generative Adversarial Network-based Visible Face Synthesis (GAN-VFS) method to synthesize more photo-realistic visible face images from their corresponding polarimetric images. To ensure that the encoded visible-features contain more semantically meaningful information in reconstructing the visible face image, a guidance sub-network is involved into the training procedure. To achieve photo realistic property while preserving discriminative characteristics for the reconstructed outputs, an identity loss combined with the perceptual loss are optimized in the framework. Multiple experiments evaluated on different experimental protocols demonstrate that the proposed method achieves state-of-the-art performance.

연구 동기 및 목표

펄라리메트릭 열화상과 가시 얼굴 이미지 사이의 큰 도메인 갭을 해결함으로써, 교차 도메인 얼굴 인식을 방해하는 문제를 해결한다.
특징 추출과 이미지 복원을 별도로 최적화하는 기존의 이단계 접근 방식의 한계를 극복한다.
인간 평가자와 컴퓨터 비전 시스템 모두를 대상으로 합성된 가시 얼굴의 현실감과 분류 능력을 향상시킨다.
생성 적대 신경망을 사용한 공동 최적화 프레임워크를 개발하여 복원 정밀도와 의미 일致성을 향상시킨다.

제안 방법

이 방법은 생성 적대 신경망(GAN) 프레임워크를 활용하며, 가시 특징 추출과 이미지 복원을 동시에 최적화하는 생성자(generator)를 사용한다.
더 나은 이미지 합성을 위해 추출된 가시 특징가 의미 있는 정보를 포함하도록 보장하기 위해 가이던스 서브넷을 도입한다.
사진 수준의 현실감과 분류 가능한 얼굴 특징을 유지하기 위해, 적대적 손실, 지각 손실, 정체성 손실의 조합을 사용해 생성자를 훈련시킨다.
판별자는 실제 가시 이미지와 생성된 이미지를 구별하도록 훈련되어, 생성자가 더 현실적인 출력을 만들도록 유도한다.
모든 구성 요소가 동시에 최적화될 수 있도록, 실제 펄라리메트릭-가시 얼굴 데이터셋에서 엔드 투 엔드로 프레임워크를 훈련시킨다.
다양한 프로토콜, 특히 DoG-필터링된 이미지를 포함하여, 강인성과 일반화 능력을 평가한다.

실험 결과

연구 질문

RQ1GAN을 사용한 공동 최적화 프레임워크는 이단계 접근 방식에 비해 펄라리메트릭 열화상 이미지에서 가시 얼굴 합성 품질을 향상시킬 수 있는가?
RQ2가이던스 서브넷의 포함 여부가 합성된 가시 얼굴의 의미 일치성과 현실감에 어떤 영향을 미치는가?
RQ3지각 손실과 정체성 손실을 결합함으로써, 얼굴 인식을 위한 합성 이미지의 분류 능력은 어느 정도 향상되는가?
RQ4DoG-필터링된 이미지와 같은 도전적인 조건에서, 제안된 방법은 어떻게 성능을 발휘하는가? 이는 에지 기반 인식 작업을 시뮬레이션한다.
RQ5제안된 방법은 이미지 품질 지표와 얼굴 인식 정확도 모두에서 최신 기술 수준의 성능을 달성하는가?

주요 결과

제안된 GAN-VFS 방법은 S0-Vis 프로토콜에서 PSNR 17.11 dB, Polar-Vis 프로토콜에서 17.64 dB를 기록하여 이전 방법보다 뚜렷이 뛰어난 성능을 보였다.
S0-Vis에서 SSIM은 0.5491, Polar-Vis에서는 0.5603을 기록하여, 참값 이미지와의 구조적 유사성이 뛰어나다는 것을 보여주었다.
얼굴 인식 성능에서, S0-Vis에서 AUC 79.30%, Polar-Vis에서 79.90%를 기록했으며, EER 값은 각각 27.34%와 25.17%로, 최신 기술 수준의 성능을 나타냈다.
제거 분석 결과, 지각 손실과 정체성 손실의 조합이 이미지 품질과 인식 정확도를 모두 뚜렷이 향상시킨다는 것이 확인되었다.
DoG-필터링된 버전을 포함한 모든 네 가지 실험 프로토콜에서 이전 방법보다 뛰어난 성능을 보였으며, 특징 추출 변동에 대한 강인성을 입증했다.
정성적 결과는 기준 방법 대비 합성 이미지가 더 사진 수준의 현실감을 가지며, 눈과 얼굴 윤곽 등의 미세한 얼굴 특징을 더 정확히 유지하고 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.