QUICK REVIEW

[논문 리뷰] Photo-Realistic Monocular Gaze Redirection Using Generative Adversarial Networks

Zhe He, Adrian Spurr|arXiv (Cornell University)|2019. 01. 01.

Gaze Tracking and Assistive Technology참고 문헌 35인용 수 5

한 줄 요약

이 논문은 단일 뷰 눈 이미지에서 실사 수준의 시선 재지향을 위한 GAN 기반 방법을 제안한다. 이는 정확한 시선 방향 제어를 통해 고해상도 눈 이미지를 생성하며, 시선 추정 기능을 갖춘 판별자, 지각적 손실, 사이클 일致성 손실을 통합함으로써 기존 방법보다 영상 품질과 방향 정확도에서 뛰어난 성능을 내며, 데이터 증강에 활용될 경우 시선 추정 성능까지 향상시킨다.

ABSTRACT

Gaze redirection is the task of changing the gaze to a desired direction for a given monocular eye patch image. Many applications such as videoconferencing, films, games, and generation of training data for gaze estimation require redirecting the gaze, without distorting the appearance of the area surrounding the eye and while producing photo-realistic images. Existing methods lack the ability to generate perceptually plausible images. In this work, we present a novel method to alleviate this problem by leveraging generative adversarial training to synthesize an eye image conditioned on a target gaze direction. Our method ensures perceptual similarity and consistency of synthesized images to the real images. Furthermore, a gaze estimation loss is used to control the gaze direction accurately. To attain high-quality images, we incorporate perceptual and cycle consistency losses into our architecture. In extensive evaluations we show that the proposed method outperforms state-of-the-art approaches in terms of both image quality and redirection precision. Finally, we show that generated images can bring significant improvement for the gaze estimation task if used to augment real training data.

연구 동기 및 목표

큰 시선 각도 변화가 발생할 경우에도 현실적으로 설득력 있는 시선 재지향이 이루어지지 않는 문제를 해결하기 위해.
목표 시선 방향으로 시선을 재지향할 때도 얼굴 정체성과 질감 세부 정보를 유지할 수 있는 방법을 개발하기 위해.
다양한 시선 각도를 가진 합성 훈련 데이터를 생성함으로써 시선 추정 성능을 향상시키기 위해.
큰 이면부 노출 또는 비현실적인 결과를 유도하는 워핑 기반 방법의 한계를 극복하기 위해.

제안 방법

생성자는 실제 눈 이미지와 목표 시선 방향을 입력으로 받아 합성된 눈 이미지를 생성하는 조건부 GAN 아키텍처를 사용한다.
실제 이미지와 생성된 이미지를 구분할 뿐 아니라 시선 방향을 추정함으로써 정확도를 강화하는 이중 기능 판별자를 활용한다.
사전 훈련된 VGG-Net을 사용해 생성된 이미지와 진짜 이미지 간의 깊이 특징을 일치시키기 위해 지각적 손실을 도입한다.
생성된 출력에서 원래 입력 이미지를 재구성함으로써 개인화된 특징을 유지하기 위해 사이클 일치성 손실을 적용한다.
생성된 이미지 내 시선 방향을 직접적으로 감독하기 위해 시선 추정 손실(Lgaze)을 도입한다.
L1 재구성 손실, 지각적 손실(Lp), 사이클 일치성 손실(Lrec), 시선 손실(Lgaze)을 조합하여 엔드 투 엔드 훈련을 수행한다.

실험 결과

연구 질문

RQ1큰 시선 각도 변화 조건에서도 정확한 시선 재지향이 가능한 실사 수준의 눈 이미지를 GAN 기반 접근법으로 생성할 수 있는가?
RQ2시선 추정 기능을 갖춘 판별자를 통합함으로써 표준 GAN에 비해 현실감과 방향 정확도가 어떻게 향상되는가?
RQ3지각적 손실과 사이클 일치성 손실을 도입함으로써 생성된 이미지의 시각적 정밀도와 정체성 유지 정도가 얼마나 향상되는가?
RQ4합성된 시선 재지향 결과물이 실제 훈련 데이터를 증강하는 데 효과적으로 활용되어 시선 추정 성능을 향상시킬 수 있는가?
RQ5이전의 워핑 기반 또는 GAN을 사용하지 않는 방법에 비해 이미지 품질과 재지향 정밀도 측면에서 본 논문의 방법이 우월한가?

주요 결과

증강된 데이터로 훈련한 결과, 콜롬비아 시선 데이터셋에서 평균 시선 각도 오차가 6.9°로 나타나, 실재 데이터만으로 훈련한 경우의 14.3°보다 뚜렷한 향상이 이루어졌다.
MPIIGaze 데이터셋에서 증강된 데이터로 훈련한 시선 추정기의 오차는 실재 데이터만 사용했을 때의 20.2°에서 14.0°로 감소하여 일반화 성능 향상을 입증했다.
모든 손실(Lgaze, Lp, Lrec)을 포함한 전체 모델은 LPIPS 점수(0.4)와 뿌연 정도(2.5)가 가장 낮아, 뛰어난 지각적 품질과 선명도를 보였다.
제거 실험 결과, Lrec나 Lgaze를 제거할 경우 이미지 품질과 시선 정확도에 뚜렷한 열화가 발생하여 이들의 핵심적 역할을 확인했다.
정량적 지표와 정성적 사용자 평가 모두에서 최신 기술 대비 뛰어난 성능을 보이며, 더 현실적이고 일관성 있는 시선 재지향 결과를 생성했다.
모델이 생성한 합성 이미지는 훈련 데이터 증강에 활용되었을 때 시선 추정 성능을 향상시켜, 후속 작업에 대한 실용성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.