QUICK REVIEW

[논문 리뷰] MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition

Yandong Guo, Lei Zhang|arXiv (Cornell University)|2016. 07. 27.

Face recognition and analysis참고 문헌 17인용 수 162

한 줄 요약

본 논문은 지식 기반과 연결된 백만 명의 연예인 얼굴 인식 벤치마크를 소개하고, 대규모 정밀도 및 커버리지를 측정하기 위한 대형 학습 세트와 평가 프로토콜을 제시한다.

ABSTRACT

In this paper, we design a benchmark task and provide the associated datasets for recognizing face images and link them to corresponding entity keys in a knowledge base. More specifically, we propose a benchmark task to recognize one million celebrities from their face images, by using all the possibly collected face images of this individual on the web as training data. The rich information provided by the knowledge base helps to conduct disambiguation and improve the recognition accuracy, and contributes to various real-world applications, such as image captioning and news video analysis. Associated with this task, we design and provide concrete measurement set, evaluation protocol, as well as training data. We also present in details our experiment setup and report promising baseline results. Our benchmark task could lead to one of the largest classification problems in computer vision. To the best of our knowledge, our training dataset, which contains 10M images in version 1, is the largest publicly available one in the world.

연구 동기 및 목표

지식 기반 엔티티 키와 얼굴을 연결하는 대규모 얼굴 인식 벤치마크를 정의한다(백만 명의 연예인).
확대된 연구를 가능하게 하는 학습, 측정, 평가용 데이터셋을 제공한다.
얼굴 인식을 위한 대규모 클래스 분류에서의 확장성 도전과 기초 성능을 강조하여 연구를 촉진한다.
실세계 적용성을 개선하기 위해 외부 데이터 사용과 데이터셋의 향후 확장을 권장한다.

제안 방법

웹 등장 빈도에 따라 Freebase에서 백만 명의 연예인 목록을 구성하고 이들의 Freebase MID를 제공한다.
크롭되거나 정렬된 얼굴을 포함한 대형 학습 세트를 구성하여 분류 기반 학습을 진행한다(약 ~10M 이미지, 상위 100K 연예인 대상).
고정된 정밀도 제약 하에서 인식 성능을 평가하기 위해 도판을 섞은 주의 깊게 라벨링된 이미지를 포함한 측정 세트를 설계한다.
Pmin=0.95인 목표 정밀도에서 최대 커버리지를 측정하기 위해 거절 임계치를 사용한 정밀도와 커버리지를 이용한 평가 프로토콜을 정의한다.
연예인용 심층 신경망 분류기를 학습한다(초기 500-클래스 모델, 이후 100K-클래스 전체 모델)로 기본 성능을 확립한다.
과도한 미세 조정 없이 95% 정밀도에서 측정 세트에서 44.2% 인식률을 보이는 기초 결과를 제공한다(하드 케이스).

실험 결과

연구 질문

RQ1인식 및 중의성 해결이 지식 기반 엔터티 키와 연결하여 백만 개의 연예인 클래스로 확장될 수 있는가?
RQ2웹 소스 학습 데이터를 사용한 대규모 연예인 인식 벤치마크에서 달성 가능한 성능(정밀도와 커버리지)은?
RQ3이 설정에서 클래스 수가 100K 이상으로 확장될 때 심층 신경망 분류기의 성능은 어떤가?
RQ4얼굴을 풍부한 지식 기반 속성과 연결할 때 이미지 검색, 자막 생성과 같은 실세계 응용의 과제와 기본 벤치가 어디에 있는가?

주요 결과

지식 기반 키와 연결된 백만 명 연예인 인식 작업은 실행 가능하며 의미 있는 기본선을 제공한다.
약 ~10M 이미지의 학습 세트가 상위 100K 연예인을 대상으로 측정 작업에 강한 기본선을 제공한다.
100K 연예인에 대한 기초 CNN 학습은 주목할 만한 정밀도-커버리지 트레이드오프를 달성하며, 도전적인 규모를 보여준다(하드 세트: 99% 정밀도에서 0.052, 95%에서 0.442; 랜덤 세트: 99% 정밀도에서 0.606, 95%에서 0.728).
측정 세트에는 각 연예인당 두 장의 이미지(무작위 및 하드)와 방해 물체가 혼합되어 일반화와 커버리지를 강화한다.
저자들은 외부 데이터 사용과 커버리지 확장을 통해 제공된 기본선을 넘어 상한을 늘릴 것을 권장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.