QUICK REVIEW

[논문 리뷰] Face Search at Scale: 80 Million Gallery

D. Wang, Charles Otto|arXiv (Cornell University)|2015. 07. 26.

Face recognition and analysis참고 문헌 7인용 수 80

한 줄 요약

이 논문은 대규모 갤러리에서 확장 가능하고 고정확도의 얼굴 검색을 가능하게 하기 위해 딥 컨volution 신경망(CNN) 특징과 상용 표준 제품(COTS) 얼굴 매칭기의 조합을 통한 계단식 얼굴 검색 시스템을 제안한다. 이 시스템은 LFW(98.23% 정확도) 및 IJB-A 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 500만 장의 갤러리에서 1초 내로 젊은 Tsarnaev 형제를 랭크 1에 검색하고, 8,000만 장의 갤러리에서는 7초 내로 랭크 8에 성공적으로 검색하였다.

ABSTRACT

Due to the prevalence of social media websites, one challenge facing computer vision researchers is to devise methods to process and search for persons of interest among the billions of shared photos on these websites. Facebook revealed in a 2013 white paper that its users have uploaded more than 250 billion photos, and are uploading 350 million new photos each day. Due to this humongous amount of data, large-scale face search for mining web images is both important and challenging. Despite significant progress in face recognition, searching a large collection of unconstrained face images has not been adequately addressed. To address this challenge, we propose a face search system which combines a fast search procedure, coupled with a state-of-the-art commercial off the shelf (COTS) matcher, in a cascaded framework. Given a probe face, we first filter the large gallery of photos to find the top-k most similar faces using deep features generated from a convolutional neural network. The k candidates are re-ranked by combining similarities from deep features and the COTS matcher. We evaluate the proposed face search system on a gallery containing 80 million web-downloaded face images. Experimental results demonstrate that the deep features are competitive with state-of-the-art methods on unconstrained face recognition benchmarks (LFW and IJB-A). Further, the proposed face search system offers an excellent trade-off between accuracy and scalability on datasets consisting of millions of images. Additionally, in an experiment involving searching for face images of the Tsarnaev brothers, convicted of the Boston Marathon bombing, the proposed face search system could find the younger brother's (Dzhokhar Tsarnaev) photo at rank 1 in 1 second on a 5M gallery and at rank 8 in 7 seconds on an 80M gallery.

연구 동기 및 목표

매일 수십억 장의 얼굴 이미지가 업로드되는 소셜 미디어 및 법집행 기관과 같은 제약 없는 환경에서 대규모 얼굴 검색의 과제를 해결한다.
갤러리 크기가 증가함에 따라 정확도와 확장성이 떨어지는 기존 얼굴 인식 방법의 한계를 극복한다.
실제 대규모 이미지 컬렉션에 구현 가능한 실시간 운영을 위해 높은 인식 정확도와 낮은 계산 비용을 균형 잡는 시스템을 개발한다.
최신 기술 수준의 COTS 매칭기를 계단식 아키텍처에 통합하여 딥 러닝 특징과의 조합을 통해 검색 성능을 향상시키는 효과를 입증한다.

제안 방법

CASIA 데이터셋으로 훈련된 딥 컨volution 신경망을 사용하여 얼굴 표현을 위한 압축되고 특징이 뚜렷한 딥 특징을 추출한다.
고차원 특징 공간에서의 근사 k-최근접 이웃(k-NN) 검색을 효율적으로 구현하기 위해 제품 양자화(PQ)를 적용한다.
딥 특징을 사용해 상위-k 후보 얼굴을 검색하고, 최신 기술 수준의 COTS 얼굴 매칭기를 통해 유사도 점수를 재정렬한다.
내부 특징을 공개하지 않는 COTS 매칭기를 계단식 아키텍처에 통합하여 정확도를 유지한다.
딥 특징(빠른 처리, 일반화 능력 우수)과 COTS 매칭기(고정확도, 강건성 우수)의 상호보완적 강점을 활용하여 종합적인 검색 성능을 향상시킨다.
복잡도가 점점 증가하는 세 가지 데이터셋(PCSO 모범사진, LFW, IJB-A)과 대규모 8,000만 장의 얼굴 갤러리에서 시스템을 평가한다.

실험 결과

연구 질문

RQ1딥 특징과 COTS 매칭기를 조합한 계단식 얼굴 검색 시스템이 대규모 얼굴 갤러리에서 높은 정확도와 확장성을 달성할 수 있는가?
RQ2LFW 및 IJB-A와 같은 제약 없는 얼굴 인식 벤치마크에서 딥 특징의 성능은 최신 기술 수준의 방법과 비교해 어떻게 되는가?
RQ3제안된 시스템은 실제 사례, 예를 들어 보스턴 마라톤 폭탄 테러 사건에서 용의자를 특정하는 데 얼마나 효과적으로 관련 얼굴을 검색할 수 있는가?
RQ4재정렬을 통한 딥 특징과 COTS 매칭기의 통합은 단독으로 사용할 경우보다 검색 정확도를 향상시키는가?

주요 결과

LFW 데이터셋에서 표준 프로토콜 하에 98.23%의 정확도를 달성하였고, BLUFR 프로토콜 하에 0.1%의 가짜 경고율(FAR)에서 87.65%의 검증률를 기록하여 이전 연구를 능가하였다.
IJB-A 벤치마크에서 0.1%의 FAR에서 진짜 수락률(TAR)은 51.4%로 측정되었으며, 82.0%의 랭크-1 검색 성능(폐쇄 집합 검색), 1%의 FPIR에서 61.7%의 FNIR(개방 집합 검색) 성능도 확보하였다.
Tsarnaev 형제 사례 연구에서, 500만 장의 갤러리에서는 1초 내로 젊은 형제의 사진을 랭크 1에 검색했고, 8,000만 장의 갤러리에서는 7초 내로 랭크 8에 성공적으로 검색하였다.
딥 특징만으로도 유사한 조건(예: 가림, 흐림)에서 후보를 반환할 수 있으며, 갤러리에 이전에 존재하지 않았던 근접 중복 이미지도 검색할 수 있었다.
계단식 시스템은 검색 성능을 크게 향상시켰다: 8,000만 장 갤러리에서 상위 1만 개 후보를 재정렬하여 프로브 2c에 대해 정확한 이미지를 랭크 8에 도달시켰지만, 딥 특징만으로는 상위 3,000명 이내에서 이를 검색하지 못했다.
시스템은 대규모 갤러리에서도 높은 정확도를 유지하였으며, 수백만 장의 이미지에서 성능과 계산 효율성 사이의 유리한 트레이드오프를 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.