QUICK REVIEW

[논문 리뷰] MGGR: MultiModal-Guided Gaze Redirection with Coarse-to-Fine Learning

Jingjing Chen, Jichao Zhang|arXiv (Cornell University)|2020. 04. 07.

Gaze Tracking and Assistive Technology참고 문헌 14인용 수 2

한 줄 요약

MGGR는 눈맵과 대상 각도를 활용하여 이미지 품질과 방향 전환 정밀도를 향상시키는 코arse-to-fine 시선 재지향 프레임워크를 제안한다. 유연한 코어스 변환과 적대적, 조건부 잔차 학습을 병합한 피니어 브랜치에 더해 시선맵 가이던스를 통합함으로써 MGGR는 기준 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Gaze redirection aims at manipulating a given eye gaze to a desirable direction according to a reference angle and it can be applied to many real life scenarios, such as video-conferencing or taking groups. However, the previous works suffer from two limitations: (1) low-quality generation and (2) low redirection precision. To this end, we propose an innovative MultiModal-Guided Gaze Redirection~(MGGR) framework that fully exploits eye-map images and target angles to adjust a given eye appearance through a designed coarse-to-fine learning. Our contribution is combining the flow-learning and adversarial learning for coarse-to-fine generation. More specifically, the role of the proposed coarse branch with flow field is to rapidly learn the spatial transformation for attaining the warped result with the desired gaze. The proposed fine-grained branch consists of a generator network with conditional residual image learning and a multi-task discriminator to reduce the gap between the warped image and the ground-truth image for recovering the finer texture details. Moreover, we propose leveraging the gazemap for desired angles as an extra guide to further improve the precision of gaze redirection. Extensive experiments on a benchmark dataset show that the proposed method outperforms the state-of-the-art methods in terms of image quality and redirection precision. Further evaluations demonstrate the effectiveness of the proposed coarse-to-fine and gazemap modules.

연구 동기 및 목표

기존의 시선 재지향 방법에서의 낮은 이미지 품질과 낮은 방향 전환 정밀도의 한계를 해결한다.
눈맵 이미지와 목표 시선 각도로부터의 다중모달 가이던스를 통합하여 시선 재지향을 향상시킨다.
전역 공간 변환과 국소 텍스처 세부 정보 복구를 향상시키기 위해 코어스-투-파인 학습 전략을 개발한다.
이미지 생성 과정에서 시선 방향 정확도를 향상시키기 위해 시선맵을 보조 가이드로 활용한다.
최신 기술 수준의 방법들과 비교해 시각적 충실도와 시선 정렬 측면에서 뛰어난 성능을 달성한다.

제안 방법

입력 눈 이미지를 목표 시선 방향으로 빠르게 공간 변환하기 위해 플로우 필드를 사용하는 코어스 브랜치를 도입한다.
왜곡된 눈 이미지의 고해상도 텍스처 세부 정보를 복구하기 위해 조건부 잔차 생성기로 구성된 세밀한 브랜치를 설계한다.
생성된 이미지와 진짜 이미지 간의 감각적 및 적대적 차이를 최소화하기 위해 다중 작업 판별기를 활용한다.
원하는 시선 방향의 히트맵인 시선맵을 추가적인 조건부 입력으로 통합하여 생성기의 정밀도를 향상시킨다.
플로우 기반 코어스 학습과 적대적 피니어 트레이닝을 통합한 엔드 투 엔드 트레이너블 프레임워크를 통해 공동 최적화를 수행한다.
먼저 코어스 브랜치를 최적화하고, 이후 적대적 손실과 함께 피니어 브랜치를 공동으로 학습하는 다단계 학습 전략을 사용한다.

실험 결과

연구 질문

RQ1단일 단계 방법과 비교해 코어스-투-파인 학습 전략이 시선 재지향의 효율성과 품질을 향상시키는가?
RQ2시선맵을 보조 가이드로 통합할 경우 시선 재지향의 정밀도에 어떤 영향을 미치는가?
RQ3플로우 기반 변환과 적대적 잔차 학습을 조합함으로써 텍스처 세부 정보 복구가 얼마나 향상되는가?
RQ4제안된 다중모달 가이던스(눈맵 + 목표 각도)가 이미지 품질과 시선 정확도 향상에 측정 가능한 기여를 하는가?
RQ5정량적 지표와 시각적 충실도 측면에서 MGGR는 최신 기술 수준의 시선 재지향 모델과 비교해 어떻게 성능을 내는가?

주요 결과

MGGR는 기준 데이터셋에서 최신 기술 수준의 시선 재지향 방법들보다 이미지 품질과 시선 재지향 정밀도 측면에서 뛰어난 성능을 보였다.
코어스-투-파인 학습 전략은 시선 방향 정렬을 크게 향상시키면서도 현실적인 눈 텍스처를 유지하는 데 기여했다.
시선맵을 가이던스 모odal로 통합함으로써 특히 도전적인 시선 각도에서 방향 전환 정밀도 향상이 측정 가능하게 확보되었다.
다중 작업 판별기는 생성된 이미지와 진짜 이미지 간의 분포 갭을 효과적으로 줄여 시각적 현실감을 향상시켰다.
절단 실험을 통해 코어스 브랜치의 플로우 학습과 피니어 브랜치의 적대적 학습이 성능 향상에 기여하는 것으로 확인되었다.
LPIPS, FID, 시선 오차 등의 정량적 지표에서 뛰어난 결과를 달성하여 프레임워크의 강건성과 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.