Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues

Ning Zhang, Manohar Paluri|arXiv (Cornell University)|2015. 01. 23.
Face recognition and analysis참고 문헌 29인용 수 25
한 줄 요약

이 논문은 전방 얼굴이 흔하지 않은 비제약적 사진 앨범에서 신원 인식을 향상시키기 위해 딥 컨volution 네트워크와 포즈릿 기반 부분 검출기(poselet-based part detectors)를 융합한 포즈 불변 신원 인식 시스템인 PIPER를 제안한다. 여러 신체 부위, 얼굴 검출, 전역 특징의 정보를 융합함으로써, PIPER는 581명의 신원에서 83.05%의 정확도를 달성하고, 전방 얼굴이 존재할 경우 DeepFace 대비 오차를 40% 감소시킨다.

ABSTRACT

We explore the task of recognizing peoples' identities in photo albums in an unconstrained setting. To facilitate this, we introduce the new People In Photo Albums (PIPA) dataset, consisting of over 60000 instances of 2000 individuals collected from public Flickr photo albums. With only about half of the person images containing a frontal face, the recognition task is very challenging due to the large variations in pose, clothing, camera viewpoint, image resolution and illumination. We propose the Pose Invariant PErson Recognition (PIPER) method, which accumulates the cues of poselet-level person recognizers trained by deep convolutional networks to discount for the pose variations, combined with a face recognizer and a global recognizer. Experiments on three different settings confirm that in our unconstrained setup PIPER significantly improves on the performance of DeepFace, which is one of the best face recognizers as measured on the LFW dataset.

연구 동기 및 목표

  • 전방 얼굴이 흔하지 않은 비제약적 사진 앨범에서 신원 인식 문제를 해결한다. 일반적으로 전방 얼굴 비율이 50% 이하일 수 있다.
  • DeepFace와 같은 최신 기술의 얼굴 인식기들이 비전면 또는 가림된 시야에서 실패하는 한계를 극복한다.
  • 얼굴 외의 다양한 시각적 신호를 활용하는 강건한 포즈 불변 인식 시스템을 개발한다.
  • 비제약적 신원 인식을 위한 대규모 실세계 기준 데이터셋인 People In Photo Albums (PIPA) 데이터셋을 제안한다.
  • 저자료 환경에서 효과적인 원샷 학습과 무차별적 신원 검색을 가능하게 한다.

제안 방법

  • 포즈릿 수준의 신원 분류기 예측, 얼굴 인식기, 전역 이미지 인식기의 예측을 융합하는 다중 신호 기반 신원 인식 프레임워크인 PIPER를 제안한다.
  • 일반적인 신체 구성(예: 프로파일에서의 머리-어깨 조합, 손이 허리에 위치한 자세 등)을 위한 학습된 부분 검출기인 포즈릿(poses)을 사용하여 포즈 불변 특징을 캡처한다.
  • 각 부분에 대해 포즈릿 검출 영역에 대해 별도의 딥 컨volution 네트워크를 훈련시켜 신원 특화된 특징을 학습한다.
  • 개별 포즈릿 예측을 수식(1)에 따라 학습된 가중치 융합 방식으로 조합하여 최종 신원 점수를 도출함으로써 포즈 변화에 대한 강건성을 향상시킨다.
  • PIPA 데이터셋에 기반하여 크리즈헤프스키 스타일의 CNN을 미세조정하여 비교 기준으로 사용한다.
  • 검증 데이터 분할에 기반한 SVM을 사용하여 무차별적 검색을 위한 압축된 366차원 신원 특징 벡터를 생성한다.

실험 결과

연구 질문

  • RQ1전방 얼굴이 흔하지 않은 비제약적 사진 앨범에서, 다중 부위 기반 포즈 불변 인식 시스템이 전방 얼굴 기반 모델보다 뚜렷하게 우월한가?
  • RQ2포즈릿 기반 신호, 얼굴 검출, 전역 특징의 융합이 포즈 및 시점 변화에 대응하여 정확도 향상에 얼마나 효과적인가?
  • RQ3제안된 방법이 단일 또는 소수의 학습 예제만을 가진 원샷 학습 시나리오로 얼마나 잘 일반화되는가?
  • RQ4메트릭 학습 없이도 명시적인 검색 학습 없이 무차별적 신원 검색에서 시스템 성능은 어떠한가?
  • RQ5PIPA와 같은 대규모 실세계 데이터셋이 비제약적 신원 인식 분야에서 의미 있는 기준 설정과 진전을 가능하게 하는가?

주요 결과

  • PIPER는 581명의 신원 테스트 세트에서 83.05%의 정확도를 달성하였으며, 비제약적 환경에서 전역 기준 모델 및 DeepFace보다 뚜렷이 뛰어난 성능을 보였다.
  • 전방 얼굴이 없는 서브셋에서는 PIPER가 71.8%의 정확도를 기록한 반면, DeepFace는 단지 0.17%에 그쳤다. 이는 얼굴 누락 상황에서도 강건함을 입증한다.
  • 전방 얼굴이 존재할 경우, PIPER는 DeepFace의 89.3%에서 93.4%로 정확도를 향상시켜 상대 오차를 약 40% 감소시켰다.
  • 원샷 학습 상황에서는 PIPER가 신원당 하나의 학습 예제만으로도 28.1%의 정확도를 달성하였으며, 학습 속도와 일반화 능력 면에서 전역 CNN 기준 모델을 능가했다.
  • 무차별적 신원 검색에서, PIPER를 사용할 경우 64%의 쿼리 이미지가 상위 5개 이웃 중 정확한 매칭을 갖는 반면, 미세조정된 ImageNet CNN은 50%에 그쳤다.
  • 신원당 학습 예제 수가 증가함에 따라 PIPER의 성능 향상 속도가 전역 CNN 기준 모델보다 더 빠르게 증가하여, 훨씬 뛰어난 데이터 효율성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.