[논문 리뷰] Thermal to Visible Face Recognition Using Deep Autoencoders
이 논문은 열화상 및 가시광선 얼굴 영상 간의 비선형 매핑을 학습하기 위해 딥 컨volution 오토인코더 기반 방법을 제안한다. 교차 도메인 얼굴 인식을 위해, U-Net 아키텍처, 업컨볼루션 디코딩, DoG 전처리 및 얼굴 랜드마크 정렬을 활용함으로써, Carl 데이터셋에서 순위-1 정확도를 14% 향상시키고 UND-X1에서 3.5% 향상시켜 최신 기술 수준의 성능을 달성한다.
Visible face recognition systems achieve nearly perfect recognition accuracies using deep learning. However, in lack of light, these systems perform poorly. A way to deal with this problem is thermal to visible cross-domain face matching. This is a desired technology because of its usefulness in night time surveillance. Nevertheless, due to differences between two domains, it is a very challenging face recognition problem. In this paper, we present a deep autoencoder based system to learn the mapping between visible and thermal face images. Also, we assess the impact of alignment in thermal to visible face recognition. For this purpose, we manually annotate the facial landmarks on the Carl and EURECOM datasets. The proposed approach is extensively tested on three publicly available datasets: Carl, UND-X1, and EURECOM. Experimental results show that the proposed approach improves the state-of-the-art significantly. We observe that alignment increases the performance by around 2%. Annotated facial landmark positions in this study can be downloaded from the following link: github.com/Alpkant/Thermal-to-Visible-Face-Recognition-Using-Deep-Autoencoders .
연구 동기 및 목표
- 낮은 조도 조건에서의 가시광선 얼굴 인식 성능이 낮은 문제를 열화상 영상을 통해 해결한다.
- 열화상 및 가시광선 얼굴 도메인 간의 비선형 매핑을 학습하여 교차 도메인 매칭을 가능하게 한다.
- 얼굴 정렬 및 전처리의 정확도에 미치는 영향을 조사한다.
- 열화상에서 가시광선 얼굴 인식 벤치마크에서 최신 기술 수준의 성능을 향상시킨다.
- 향후 열화상 얼굴 랜드마크 검출 연구를 지원하기 위해 열화상 얼굴 영상에 대한 주석이 달린 랜드마크를 제공한다.
제안 방법
- 파arameter 수를 줄이고 학습 효율성을 향상시키기 위해 512채널과 14×14 버블넥 레이어를 갖춘 수정된 U-Net 아키텍처를 사용한다.
- 이중 복원 전략인 양선형 보간과 2×2 필터를 사용한 전치(업)컨볼루션을 활용해 가시광선 입력에서 열화상 영상을 재구성한다.
- 생성된 영상과 진짜 열화상 영상 간의 재구성 오차를 최소화하기 위해 평균 제곱 오차(MSE) 손실 함수를 적용한다.
- 다운샘플링을 통해 가시광선 영상의 해상도를 열화상 영상과 일치시키고, Difference of Gaussians (DoG) 필터링을 적용하는 전처리 단계를 통합한다.
- Carl 및 EURECOM 데이터셋에서 수동으로 주석이 달린 얼굴 랜드마크(6점: 눈과 입코네)를 사용해 얼굴 정렬을 수행한다.
- 초기 학습률이 0.01인 Adam 옵timizer를 사용해 오토인코더를 훈련시키며, 검증 오차가 정체되면 학습률을 절반으로 줄이고 배치 크기를 32로 설정한다.
실험 결과
연구 질문
- RQ1딥 컨volution 오토인코더는 열화상 및 가시광선 얼굴 영상 간의 비선형 매핑을 효과적으로 학습할 수 있는가?
- RQ2얼굴 정렬은 열화상에서 가시광선 얼굴 매칭의 정확도에 어떤 영향을 미치는가?
- RQ3DoG 필터링 및 해상도 일치와 같은 전처리 기법의 기여도는 무엇인가?
- RQ4업샘플링 방법 선택(양선형 대비 전치 컨볼루션)은 재구성 품질과 정확도에 어떤 영향을 미치는가?
- RQ5제안된 방법은 기존 최신 기술 수준의 접근 방식에 비해 벤치마크 데이터셋에서 얼마나 향상되는가?
주요 결과
- 모든 주체에 대한 가시광선 영상이 갤러리에 포함된 Carl 데이터셋에서 제안된 방법은 순위-1 정확도 85%를 달성하여 이전 최신 기술 수준 대비 14%p의 절대적 향상을 이룬다.
- UND-X1 데이터셋에서 DoG 필터링과 업컨볼루션을 적용한 결과, 순위-1 정확도 87.2%를 기록하여 이전 최신 기술 수준 대비 3.5%p의 절대적 향상을 달성한다.
- 정렬은 모든 데이터셋에서 약 2%p의 정확도 향상을 이끌어내며, 특히 2/주제 및 모든/주제 갤러리 설정에서 가장 높은 성과 향상을 보였다.
- 업컨볼루션 디코딩은 항상 양선형 보간보다 우수한 성능을 보였으며, Carl 데이터셋에서 최대 4%p의 정확도 향상을 이끌었다.
- DoG 필터링 및 해상도 일치 전처리를 통해 성능 향상이 크게 이루어졌으며, 모든 전처리, 정렬 및 업컨볼루션을 적용했을 때 최고의 성능가를 기록했다.
- 시각적 결과에서는 정확하게 매칭된 주제에 대해 오토인코더가 현실적인 열화상 유사 영상을 생성하는 것으로 나타났으며, 재구성 실패는 분류 오류와 관련이 있었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.