QUICK REVIEW

[논문 리뷰] Eye Tracking for Everyone

Kyle Krafka, Aditya Khosla|arXiv (Cornell University)|2016. 06. 18.

Gaze Tracking and Assistive Technology참고 문헌 39인용 수 72

한 줄 요약

이 논문은 1450명의 참가자로부터 크라우드소싱을 통해 수집한 대규모 눈동자 추적 데이터셋인 GazeCapture를 소개하고, 모바일 기기에서 실시간으로 校정 없이도 눈동자 방향을 예측할 수 있는 딥 컨volution 신경망인 iTracker를 제안한다. 이 모델은 스마트폰과 태블릿에서 각각 1.71cm와 2.53cm의 평균 오차를 기록하며, 종합적인 학습과 다양한 대규모 데이터로부터의 일반화를 통해 기존 방법들을 능가한다.

ABSTRACT

From scientific research to commercial applications, eye tracking is an important tool across many domains. Despite its range of applications, eye tracking has yet to become a pervasive technology. We believe that we can put the power of eye tracking in everyone's palm by building eye tracking software that works on commodity hardware such as mobile phones and tablets, without the need for additional sensors or devices. We tackle this problem by introducing GazeCapture, the first large-scale dataset for eye tracking, containing data from over 1450 people consisting of almost 2.5M frames. Using GazeCapture, we train iTracker, a convolutional neural network for eye tracking, which achieves a significant reduction in error over previous approaches while running in real time (10-15fps) on a modern mobile device. Our model achieves a prediction error of 1.71cm and 2.53cm without calibration on mobile phones and tablets respectively. With calibration, this is reduced to 1.34cm and 2.12cm. Further, we demonstrate that the features learned by iTracker generalize well to other datasets, achieving state-of-the-art results. The code, data, and models are available at http://gazecapture.csail.mit.edu.

연구 동기 및 목표

특수 하드웨어나 校정이 필요 없이 눈동자 추적을 광범위하게 활용할 수 있도록 하기 위해.
강력한 딥 러닝 모델을 훈련시키기 위한 대규모이고 다양한 눈동자 추적 데이터셋의 부족을 해결하기 위해.
일반 소비자용 모바일 기기에서 효율적으로 작동하는 실시간으로 정확한 눈동자 방향 예측 시스템을 개발하기 위해.
대규모 모델에서 학습된 딥 레이어 특징이 사용자별 미세조정 없이도 다른 데이터셋에 잘 일반화되는지 입증하기 위해.

제안 방법

모바일 기기로 1450명의 참가자로부터 크라우드소싱 방식으로 눈동자 추적 데이터를 수집하여 다양한 연령대, 조명 조건, 머리 동작을 포함시켰다.
눈과 얼굴 영역을 입력으로 받아 눈동자 방향을 종단간(end-to-end)으로 예측하는 컨volution 신경망인 iTracker를 훈련시켰다.
대규모 iTracker 모델을 더 작고 빠른 버전으로 압축하기 위해 지식 정복(Knowledge Distillation)을 적용하여 모바일 기기에서 실시간 추론(10–15fps)이 가능하도록 했다.
손으로 설계한 특징에 의존하지 않고 공간적 국소화와 모델의 강건성을 향상시키기 위해 얼굴 격자(Face Grid) 표현 방식을 사용했다.
모델 성능 평가를 위해 도메인 내(GazeCapture)와 도메인 외(TabletGaze, MPIIGaze) 데이터셋을 모두 활용하여 일반화 능력을 평가했다.
표준화된 평가 지표(예: cm 단위의 평균 오차)를 사용해 최신 기술들과의 비교를 수행했다.

실험 결과

연구 질문

RQ1크라우드소싱 방식으로 수집한 대규모이고 다양한 눈동자 추적 데이터셋이 모바일 기기에서 정확하고 校정 없이도 눈동자 방향 예측을 가능하게 할 수 있는가?
RQ2대규모 데이터를 기반으로 한 종단간 딥 러닝이 전통적인 모델 기반 또는 외관 기반 방법에 비해 눈동자 방향 예측 정확도를 얼마나 향상시키는가?
RQ3딥 뉴럴 네트워크가 학습한 특징들이 다른 데이터셋과 하드웨어 플랫폼으로도 얼마나 잘 일반화되는가?
RQ4모델 성능에 영향을 주는 요소로, 참가자 수(데이터 다양성)와 한 명의 참가자당 샘플 수 중 어느 것이 더 중요한가?

주요 결과

iTracker는 校정 없이도 스마트폰과 태블릿에서 각각 1.71cm와 2.53cm의 평균 예측 오차를 기록하며, 기존 방법들보다 뚜렷이 뛰어난 성능을 보였다.
교정을 적용한 경우, 스마트폰과 태블릿에서 오차가 각각 1.34cm와 2.12cm로 감소하여, 모델의 일반화 능력이 뛰어나다는 것을 입증했다.
iTracker가 학습한 특징는 매우 잘 일반화되어 있어, TabletGaze 데이터셋에서 최신 기술들을 능가하며 2.58cm의 오차를 기록했다.
Ablation 실험 결과, 얼굴과 얼굴 격자 입력이 성능 향상에 크게 기여하며, 눈 입력을 제거해도 성능 저하가 미미한 것으로 나타나, 더 효율적인 모델 설계의 가능성을 시사했다.
실험 결과, 참가자 수를 늘리는 것(다양성 증가)이 한 명당 샘플 수를 늘리는 것보다 더 유익한 것으로 확인되어, 데이터의 다양성이 중요하다는 점을 입증했다.
지식 정복을 통해 모델을 압축한 후에도 모바일 기기에서 실시간 성능(10–15fps)을 유지하여 실질적인 구현이 가능함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.