Skip to main content
QUICK REVIEW

[논문 리뷰] Self-supervised learning of a facial attribute embedding from video

Olivia Wiles, A. Sophia Koepke|arXiv (Cornell University)|2018. 08. 21.
Face recognition and analysis참고 문헌 65인용 수 97
한 줄 요약

FAb-Net은 비디오 프레임에 대한 자기지도 프레임 변환으로 얼굴 속성의 저차원 임베딩을 학습하여 자세, 랜드마크 및 표정 작업을 선형 분류기로 수행할 수 있게 하며, 종종 감독 방법과 대등한 성능을 보입니다.

ABSTRACT

We propose a self-supervised framework for learning facial attributes by simply watching videos of a human face speaking, laughing, and moving over time. To perform this task, we introduce a network, Facial Attributes-Net (FAb-Net), that is trained to embed multiple frames from the same video face-track into a common low-dimensional space. With this approach, we make three contributions: first, we show that the network can leverage information from multiple source frames by predicting confidence/attention masks for each frame; second, we demonstrate that using a curriculum learning regime improves the learned embedding; finally, we demonstrate that the network learns a meaningful face embedding that encodes information about head pose, facial landmarks and facial expression, i.e. facial attributes, without having been supervised with any labelled data. We are comparable or superior to state-of-the-art self-supervised methods on these tasks and approach the performance of supervised methods.

연구 동기 및 목표

  • 라벨이 없는 데이터에서 얼굴 속성 표현을 학습하도록 동기를 부여한다.
  • 다양한 시점/표정에서 단일 신원 영상의 활용으로 공통 임베딩을 구축한다.
  • 임베딩에 선형 계층을 두어 랜드마크, 자세, 표정을 예측할 수 있음을 보인다.
  • 다중 프레임 소스와 커리큘럼 학습의 이점이 임베딩 개선에 기여함을 시연한다.
  • 얼굴 속성에 기반한 이미지 검색 응용을 보여준다.

제안 방법

  • FAb-Net을 학습시켜 소스 프레임과 타깃 프레임을 256차원 벡터로 임베딩한다.
  • 소스 임베딩과 타깃 임베딩을 연결(concatenate)하여 디코더를 통해 소스를 타깃으로 매핑하는 흐름 필드를 예측한다.
  • 생성된 프레임과 타깃 프레임 사이의 L1 손실을 사용하여 임베딩이 자세/표정을 포착하도록 강제한다.
  • 다중 소스 설정에서 프레임별 신뢰도 히트맵을 예측하고 대상 재구성 시 기여도를 가중한다.
  • 훈련 손실 백분위수로 구성된 배치를 선택하여 점차 난이도를 높이는 커리큘럼 학습을 도입한다.
  • 외부 데이터셋에서 랜드마크 회귀, 머리 포즈 회귀, 표현 분류를 위한 선형 계층을 학습시켜 임베딩을 평가한다.

실험 결과

연구 질문

  • RQ1비디오에서 학습된 자기지도 임베딩이 라벨 없이 자세, 랜드마크, 표정과 같은 얼굴 속성을 포착할 수 있는가?
  • RQ2다중 소스 프레임과 커리큘럼 학습이 얼굴 속성 임베딩의 품질을 향상시키는가?
  • RQ3학습된 임베딩이 외부 데이터셋에서 간단한 선형 프로브로 다운스트림 작업에 전이 가능한가?
  • RQ4임베딩이 학습 데이터 외의 작업, 예를 들어 얼굴 속성으로 이미지 검색을 지원할 수 있는가?

주요 결과

  • 학습된 임베딩은 감독 없이 머리 자세, 랜드마크 및 표정을 포함한 얼굴 속성을 인코딩한다.
  • 다중 소스 프레임과 신뢰도 맵을 추가하면 임베딩 품질이 향상된다.
  • 커리큘럼 학습은 표준 학습 대비 성능 향상을 가져온다. 임베딩은 자세 및 랜드마크 작업에서 감독 방법에 근접하거나 경쟁하며, 표정 인식에서도 경쟁력이 있다.
  • VoxCeleb+에서 CelebA/AffectNet/EmotioNet으로의 도메인 이동에도 외부 데이터셋에서 선형 프로브는 랜드마크, 자세, 표정에서 경쟁적인 결과를 얻는다.
  • 임베딩은 코사인 유사도 기반으로 신원 간 이미지 검색을 가능하게 하며, 동일한 신원이나 장식이 아닌 유사한 자세/표정을 가진 이미지를 검색한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.