QUICK REVIEW

[논문 리뷰] Training Deep Face Recognition Systems with Synthetic Data

Adam Kortylewski, Schneider, Andreas|arXiv (Cornell University)|2018. 02. 16.

Face recognition and analysis참고 문헌 31인용 수 51

한 줄 요약

본 논문은 3D Morphable Face Model에서 생성된 합성 데이터가 딥 페이스 인식 성능을 강화하고, 실제 데이터 필요를 줄이며, 실제 데이터로 미세 조정하면 합성으로 학습한 모델과 실데이터로 학습한 모델 간의 격차를 좁힐 수 있음을 보여준다.

ABSTRACT

Recent advances in deep learning have significantly increased the performance of face recognition systems. The performance and reliability of these models depend heavily on the amount and quality of the training data. However, the collection of annotated large datasets does not scale well and the control over the quality of the data decreases with the size of the dataset. In this work, we explore how synthetically generated data can be used to decrease the number of real-world images needed for training deep face recognition systems. In particular, we make use of a 3D morphable face model for the generation of images with arbitrary amounts of facial identities and with full control over image variations, such as pose, illumination, and background. In our experiments with an off-the-shelf face recognition software we observe the following phenomena: 1) The amount of real training data needed to train competitive deep face recognition systems can be reduced significantly. 2) Combining large-scale real-world data with synthetic data leads to an increased performance. 3) Models trained only on synthetic data with strong variations in pose, illumination, and background perform very well across different datasets even without dataset adaptation. 4) The real-to-virtual performance gap can be closed when using synthetic data for pre-training, followed by fine-tuning with real-world images. 5) There are no observable negative effects of pre-training with synthetic data. Thus, any face recognition system in our experiments benefits from using synthetic face images. The synthetic data generator, as well as all experiments, are publicly available.

연구 동기 및 목표

합성으로 생성된 얼굴 이미지가 딥 페이스 인식 시스템을 지원하고 개선할 수 있는지 동기 부여 및 정량화한다.
합성 데이터로 학습된 모델과 실데이터로 학습된 모델 간의 실-가상 성능 격차를 특성화한다.
합성 데이터가 실제 데이터 필요를 줄이거나 실제 데이터를 보완해 벤치마크 성능을 향상시키는지 보여준다.
합성 데이터 속성(자세 분포, 아이덴티티 수)을 다르게 할 때 실제 성능에 미치는 영향을 조사한다.
재현 가능한 합성 데이터 생성기를 제공하고 합성-실제 전이의 한계를 분석한다.

제안 방법

모양, 색상, 자세, 조명, 표정을 위한 Basel Face Model의統계를 샘플링하여 대규모 합성 얼굴 이미지를 생성한다.
조명 사전지식과 무작위 배경으로 현실적인 변화를 만들어 이미지 렌더링한다.
합성 데이터(SYN-1M)에서 Real-데이터 보강이나 적응 없이 OpenFace 프레임워크의 FaceNet-NN4를 학습시킨다.
128-d 임베딩의 코사인 유사도를 사용해 CMU-Multipie, LFW, IJB-A에서 인식 성능을 측정한다.
실제 데이터(Casia 부분집합)의 다양한 양으로 합성-사전학습 모델을 미세조정해 격차를 줄이고 성능 향상을 평가한다.

실험 결과

연구 질문

RQ1합성 데이터만으로 표준 벤치마크에서 경쟁력 있는 얼굴 인식 성능을 달성할 수 있는가?
RQ2합성 데이터로 학습한 모델과 실데이터로 학습한 모델 간의 실-가상 격차는 CMU-Multipie, LFW, IJB-A와 같은 벤치마크에서 어떤가?
RQ3합성 데이터로의 프리트레이닝에 실제 데이터로의 미세조정을 더하면 실데이터-전용 모델의 격차를 줄이거나 해소할 수 있는가?
RQ4합성 데이터 특성(자세 분포, 아이덴티티 수)이 실제 세계의 성능에 어떤 영향을 미치는가?
RQ5실제 데이터에 대한 미세조정과 합성 프리트레이닝 사이의 최적 균형은 실제 데이터로의 전달에 있어 어떤 효과를 낳는가?

주요 결과

합성 데이터만으로 학습할 때 특히 LFW와 IJB-A에서 실-가상 성능 격차가 크게 나타난다.
합성 데이터로 프리트레이닝을 하고 실제 데이터로 미세조정하면 격차가 줄어들고 다수의 벤치마크에서 실데이터-전용 모델보다 우수한 성능을 보일 수 있다.
합성 데이터를 사용하면 경쟁력 있는 성능에 도달하는 데 필요한 실제 데이터의 양을 줄일 수 있으며, 예를 들어 LFW에서 미세조정용 실제 이미지 약 10만 장으로 격차를 줄일 수 있다.
합성 데이터와 실제 데이터를 결합하면 Multipie, LFW, IJB-A 전반에서 성능이 향상되며 종종 실데이터-전용 기준선을 능가한다.
합성 데이터 생성기는 200개의 실제 3D 스캔을 기반으로 다양한 아이덴티티와 변화를 생성할 수 있으며, 자세와 배경의 다양성은 전달 이점에 중요하다.
아이덴티티 수를 늘리고 합성 데이터의 폭넓은 자세 변화를 유지하는 것은 실제 데이터셋으로의 전달 성능을 더 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.