Skip to main content
QUICK REVIEW

[논문 리뷰] Recurrent CNN for 3D Gaze Estimation using Appearance and Shape Cues

Cristina Palmero, Javier Selva|arXiv (Cornell University)|2018. 05. 08.
Gaze Tracking and Assistive Technology참고 문헌 24인용 수 26
한 줄 요약

이 논문은 이미지 시퀀스에서 시간 동적성을 활용하기 위해 many-to-one RNN를 사용하는 다중 모odal 순환 CNN을 제안한다. 이는 외관(얼굴 및 눈 부위)과 형태(면상 키포인트) 신호를 융합하여 3D 시선 추정을 수행한다. EYEDIAP에서 SOTA 대비 14.6% 향상되었고, 시간 모델링을 추가로 적용하면 추가로 4% 향상되었으며, 이는 원격, 제3자 시선 추정에서 시퀀스 데이터를 효과적으로 활용한 최초의 방법이다.

ABSTRACT

Gaze behavior is an important non-verbal cue in social signal processing and human-computer interaction. In this paper, we tackle the problem of person- and head pose-independent 3D gaze estimation from remote cameras, using a multi-modal recurrent convolutional neural network (CNN). We propose to combine face, eyes region, and face landmarks as individual streams in a CNN to estimate gaze in still images. Then, we exploit the dynamic nature of gaze by feeding the learned features of all the frames in a sequence to a many-to-one recurrent module that predicts the 3D gaze vector of the last frame. Our multi-modal static solution is evaluated on a wide range of head poses and gaze directions, achieving a significant improvement of 14.6% over the state of the art on EYEDIAP dataset, further improved by 4% when the temporal modality is included.

연구 동기 및 목표

  • 원격 RGB 카메라를 사용하여 개인 및 머리 자세에 관계없이 3D 시선 추정 문제를 해결한다.
  • 머리 자세, 조명, 시선 방향의 실제 환경 변동성에 대비해 일반화 능력을 향상시킨다.
  • 외관(얼굴 및 눈 부위)과 형태(면상 키포인트)의 다중 모달 신호를 통합하여 특징 표현을 향상시킨다.
  • 눈과 머리 움직임의 시간 동적성을 활용하여 정적 이미지 분석을 넘어서 시선 예측 성능을 향상시킨다.
  • 개인 캘리브레이션 없이도 주관적 독립형, 자유 머리 시선 추정 시스템을 개발한다.

제안 방법

  • 전체 얼굴 이미지, 고해상도 눈 부위, 면상 키포인트 히트맵을 처리하기 위한 다중 스트림 3D CNN을 사용한다.
  • 최종 완전 연결 층 이전의 세 스트림 특징을 후기 융합(fusion) 방식으로 통합하여 시선 예측 헤드에 연결한다.
  • 프레임 수준의 특징 시퀀스를 many-to-one 순환 신경망(LSTM 또는 GRU)에 입력하여 시간 동적성을 모델링한다.
  • 시퀀스의 마지막 프레임에 대한 3D 시선 벡터를 예측하기 위해 재귀 모듈을 훈련하며, 최종 은닉 상태만 사용한다.
  • 정확도 향상을 위해 Adam 옵timizer와 데이터 증강을 사용하여 평균 각도 오차 손실을 최적화한다.
  • 시퀀스 길이를 4, 7, 또는 10 프레임로 고정하고 성능에 미치는 영향을 평가하여 s=4 또는 s=10을 최적으로 선정한다.

실험 결과

연구 질문

  • RQ1다양한 머리 자세와 시선 방향에서 다중 스트림 CNN을 통해 외관과 형태 신호를 융합하면 3D 시선 추정 정확도가 향상되는가?
  • RQ2이미지 시퀀스에서 순차적 정보를 통합하면 정적 이미지 모델 대비 시선 추정 성능이 향상되는가?
  • RQ3기하학적 형태 정보를 제공하는 면상 키포인트의 포함이 모델의 일반화 능력과 강건성에 어떤 영향을 미치는가?
  • RQ4어떤 상황에서 시간 모델링이 가장 유익한가 하는가. 특히 머리 운동과 시선 방향과의 관계에서?
  • RQ5제안된 순환 아키텍처는 개인별 캘리브레이션 없이 원격, 제3자 시선 추정에 효과적인가?

주요 결과

  • 정적 다중 모달 CNN은 FT(자유 머리) 시나리오에서 EYEDIAP 데이터셋에서 이전 SOTA 대비 14.6% 상대적 향상된 성능을 달성했다.
  • 재귀 네트워크를 통한 시간 모델링을 추가하면 정적 모델 대비 평균 각도 오차가 추가로 4% 감소했다.
  • 시간 모델은 정적 모델 대비 통계적으로 유의미한 향상(p < 0.0001)을 보였으며, 특히 머리가 움직이는 조건에서 두드러졌다.
  • 모델은 중간 범위의 시선 방향에서 가장 우수한 성능을 보였고, 머리 운동이 있을 경우 가장 큰 이점을 얻었으며, 극단적 자세에서는 데이터 불균형으로 인해 성능 향상가 적었다.
  • 128개 유닛을 가진 단일층 GRU가 더 깊거나 넓은 아키텍처보다 우수했으며, 시퀀스 길이 s=4 또는 s=10이 s=7보다 더 좋은 성능을 냈다.
  • 이 방법은 원격, 제3자, 개인 및 머리 자세에 관계없는 시선 추정에서 시퀀스 데이터를 효과적으로 활용한 최초의 시스템이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.