QUICK REVIEW

[논문 리뷰] Recurrent CNN for 3D Gaze Estimation using Appearance and Shape Cues

Cristina Palmero, Javier Selva|arXiv (Cornell University)|2018. 05. 08.

Gaze Tracking and Assistive Technology참고 문헌 24인용 수 26

한 줄 요약

이 논문은 이미지 시퀀스에서 시간 동적성을 활용하기 위해 many-to-one RNN를 사용하는 다중 모odal 순환 CNN을 제안한다. 이는 외관(얼굴 및 눈 부위)과 형태(면상 키포인트) 신호를 융합하여 3D 시선 추정을 수행한다. EYEDIAP에서 SOTA 대비 14.6% 향상되었고, 시간 모델링을 추가로 적용하면 추가로 4% 향상되었으며, 이는 원격, 제3자 시선 추정에서 시퀀스 데이터를 효과적으로 활용한 최초의 방법이다.

ABSTRACT

Gaze behavior is an important non-verbal cue in social signal processing and human-computer interaction. In this paper, we tackle the problem of person- and head pose-independent 3D gaze estimation from remote cameras, using a multi-modal recurrent convolutional neural network (CNN). We propose to combine face, eyes region, and face landmarks as individual streams in a CNN to estimate gaze in still images. Then, we exploit the dynamic nature of gaze by feeding the learned features of all the frames in a sequence to a many-to-one recurrent module that predicts the 3D gaze vector of the last frame. Our multi-modal static solution is evaluated on a wide range of head poses and gaze directions, achieving a significant improvement of 14.6% over the state of the art on EYEDIAP dataset, further improved by 4% when the temporal modality is included.

연구 동기 및 목표

원격 RGB 카메라를 사용하여 개인 및 머리 자세에 관계없이 3D 시선 추정 문제를 해결한다.
머리 자세, 조명, 시선 방향의 실제 환경 변동성에 대비해 일반화 능력을 향상시킨다.
외관(얼굴 및 눈 부위)과 형태(면상 키포인트)의 다중 모달 신호를 통합하여 특징 표현을 향상시킨다.
눈과 머리 움직임의 시간 동적성을 활용하여 정적 이미지 분석을 넘어서 시선 예측 성능을 향상시킨다.
개인 캘리브레이션 없이도 주관적 독립형, 자유 머리 시선 추정 시스템을 개발한다.

제안 방법

전체 얼굴 이미지, 고해상도 눈 부위, 면상 키포인트 히트맵을 처리하기 위한 다중 스트림 3D CNN을 사용한다.
최종 완전 연결 층 이전의 세 스트림 특징을 후기 융합(fusion) 방식으로 통합하여 시선 예측 헤드에 연결한다.
프레임 수준의 특징 시퀀스를 many-to-one 순환 신경망(LSTM 또는 GRU)에 입력하여 시간 동적성을 모델링한다.
시퀀스의 마지막 프레임에 대한 3D 시선 벡터를 예측하기 위해 재귀 모듈을 훈련하며, 최종 은닉 상태만 사용한다.
정확도 향상을 위해 Adam 옵timizer와 데이터 증강을 사용하여 평균 각도 오차 손실을 최적화한다.
시퀀스 길이를 4, 7, 또는 10 프레임로 고정하고 성능에 미치는 영향을 평가하여 s=4 또는 s=10을 최적으로 선정한다.

실험 결과

연구 질문

RQ1다양한 머리 자세와 시선 방향에서 다중 스트림 CNN을 통해 외관과 형태 신호를 융합하면 3D 시선 추정 정확도가 향상되는가?
RQ2이미지 시퀀스에서 순차적 정보를 통합하면 정적 이미지 모델 대비 시선 추정 성능이 향상되는가?
RQ3기하학적 형태 정보를 제공하는 면상 키포인트의 포함이 모델의 일반화 능력과 강건성에 어떤 영향을 미치는가?
RQ4어떤 상황에서 시간 모델링이 가장 유익한가 하는가. 특히 머리 운동과 시선 방향과의 관계에서?
RQ5제안된 순환 아키텍처는 개인별 캘리브레이션 없이 원격, 제3자 시선 추정에 효과적인가?

주요 결과

정적 다중 모달 CNN은 FT(자유 머리) 시나리오에서 EYEDIAP 데이터셋에서 이전 SOTA 대비 14.6% 상대적 향상된 성능을 달성했다.
재귀 네트워크를 통한 시간 모델링을 추가하면 정적 모델 대비 평균 각도 오차가 추가로 4% 감소했다.
시간 모델은 정적 모델 대비 통계적으로 유의미한 향상(p < 0.0001)을 보였으며, 특히 머리가 움직이는 조건에서 두드러졌다.
모델은 중간 범위의 시선 방향에서 가장 우수한 성능을 보였고, 머리 운동이 있을 경우 가장 큰 이점을 얻었으며, 극단적 자세에서는 데이터 불균형으로 인해 성능 향상가 적었다.
128개 유닛을 가진 단일층 GRU가 더 깊거나 넓은 아키텍처보다 우수했으며, 시퀀스 길이 s=4 또는 s=10이 s=7보다 더 좋은 성능을 냈다.
이 방법은 원격, 제3자, 개인 및 머리 자세에 관계없는 시선 추정에서 시퀀스 데이터를 효과적으로 활용한 최초의 시스템이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.