QUICK REVIEW

[논문 리뷰] Self-Learning Transformations for Improving Gaze and Head Redirection

Yufeng Zheng, Seonwook Park|arXiv (Cornell University)|2020. 10. 23.

Face recognition and analysis참고 문헌 58인용 수 24

한 줄 요약

이 논문은 잠재적 블로킹에서 자기 예측된 가짜 조건을 통해 다중 얼굴 인자—시선 방향, 머리 자세, 조명, 색조—를 분리하고 제어하는 자기 변환 인코더-디코더 아키텍처를 제안한다. 이 방법은 시선 및 머리 자세 재지정 정확도에서 최신 기술 성능을 달성하며, 실제 데이터를 재지정된 이미지로 증강함으로써 반감독형 교차 데이터셋 시선 추정 성능을 향상시킨다.

ABSTRACT

Many computer vision tasks rely on labeled data. Rapid progress in generative modeling has led to the ability to synthesize photorealistic images. However, controlling specific aspects of the generation process such that the data can be used for supervision of downstream tasks remains challenging. In this paper we propose a novel generative model for images of faces, that is capable of producing high-quality images under fine-grained control over eye gaze and head orientation angles. This requires the disentangling of many appearance related factors including gaze and head orientation but also lighting, hue etc. We propose a novel architecture which learns to discover, disentangle and encode these extraneous variations in a self-learned manner. We further show that explicitly disentangling task-irrelevant factors results in more accurate modelling of gaze and head orientation. A novel evaluation scheme shows that our method improves upon the state-of-the-art in redirection accuracy and disentanglement between gaze direction and head orientation changes. Furthermore, we show that in the presence of limited amounts of real-world training data, our method allows for improvements in the downstream task of semi-supervised cross-dataset gaze estimation. Please check our project page at: https://ait.ethz.ch/projects/2020/STED-gaze/

연구 동기 및 목표

쌍체 데이터가 이용 불가능한 실외 이미지에서 시선 및 머리 자세와 같은 미세한 얼굴 특성을 제어하는 문제를 해결하기 위해.
자기 지도 학습 방식으로 작업에 관련된(시선, 머리 자세) 요소와 관련이 없는(조명, 색조 등) 요소를 분리하기 위해.
재지정 정확도와 분리 정확도를 측정하기 위한 체계적인 평가 체계를 개발하기 위해.
제안된 재지정 프레임워크를 사용하여 제한된 실세계 학습 데이터를 증강함으로써 반감독형 교차 데이터셋 시선 추정을 향상시키기 위해.

제안 방법

각 잠재 요소가 잠재 임bedding과 자기 예측된 가짜 조건으로 구성된 다중 변환 가능한 잠재 요소를 갖는 자기 변환 인코더-디코더(ST-ED) 아키텍처를 제안한다.
자기 예측된 가짜 조건을 사용하여 조건부 이미지 번역 과정에서 노이즈가 있거나 완벽하지 않은 레이블에 대한 의존도를 줄인다.
독립된 요소들 간의 분리를 강제하면서도 목표 시선 및 머리 자세에 대한 정밀한 제어를 유지하기 위해 새로운 제약 조건을 적용한다.
생성된 이미지에서 목표 시선 및 머리 자세가 얼마나 정확히 재현되었는지 수량화하기 위해 재지정 오차 지표를 도입한다.
외부 요소가 변경되었을 때 시선 또는 머리 자세가 얼마나 변하는지 측정하기 위해 작업 분리 오차 지표를 도입한다.
제한된 실세계 데이터를 사용해 시선 재지정 모델을 반감독 방식으로 학습한 후, 이를 후속 시선 추정 작업의 학습 데이터 증강에 활용한다.

실험 결과

연구 질문

RQ1쌍체 감독 없이도 자기 지도 학습 기반 생성 모델이 시선, 머리 자세, 조명, 색조 등의 다중 얼굴 인자를 효과적으로 분리하고 제어할 수 있는가?
RQ2작업에 관련이 없는 요소의 명시적 분리는 시선 및 머리 자세 재지정의 정확도와 신뢰성에 어떤 영향을 미치는가?
RQ3이 방법으로 생성된 재지정된 이미지는 반감독형 교차 데이터셋 시선 추정 성능 향상에 어느 정도 기여하는가?
RQ4기존 지표와 비교해 제안된 평가 체계는 재지정 정확도와 분리 정확도 측정에 어떻게 뛰어나게 작용하는가?

주요 결과

제안된 방법은 GazeCapture 데이터셋에서 정성적 및 정량적 평가 모두에서 He et al. [17] 및 StarGAN [21]을 능가하는 최신 기술 수준의 재지정 정확도를 달성한다.
다음 최선의 베이스라인 대비 재지정 오차를 25% 감소시켜 목표 시선 및 머리 자세 제어 능력이 뛰어나다는 것을 입증한다.
작업 분리 오차 지표는 조명과 색조가 변화하더라도 시선 및 머리 자세가 안정적으로 유지됨을 보여주며, 효과적인 분리를 확인한다.
반감독형 교차 데이터셋 시선 추정에서, 이 방법은 실학습 데이터를 재지정된 이미지로 증강함으로써 네 개의 벤치마크 데이터셋에서 평균 절대 오차(MAE)를 최대 15% 향상시킨다.
큰 머리 자세, 안경 착용, 흐린 입력과 같은 도전적인 경우에도 잘 일반화되어 사진 수준의 현실감 있는 출력을 생성한다.
제거 실험을 통해 외부 요소를 분리함으로써 더 정확하고 강건한 재지정이 가능해짐을 확인하였으며, 핵심 설계 원칙을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.