QUICK REVIEW

[논문 리뷰] PupilNet v2.0: Convolutional Neural Networks for CPU based real time Robust Pupil Detection

Wolfgang Fuhl, Thiago Santini|arXiv (Cornell University)|2017. 10. 30.

Gaze Tracking and Assistive Technology인용 수 44

한 줄 요약

PupilNet v2.0은 실시간으로 안정적인 동공 검출을 위한 두 단계의 컨volution 신경망(CNN) 파이프라인을 제안하며, GPU 가속 없이도 단일 코어 CPU에서도 실시간 성능(7ms 추론)을 달성하면서도 반사, 가림, 조도 변화와 같은 도전적인 실세계 조건을 잘 처리한다. 최신 기술 대비 최대 9% 높은 검출 정확도를 기록한다.

ABSTRACT

Real-time, accurate, and robust pupil detection is an essential prerequisite for pervasive video-based eye-tracking. However, automated pupil detection in realworld scenarios has proven to be an intricate challenge due to fast illumination changes, pupil occlusion, non-centered and off-axis eye recording, as well as physiological eye characteristics. In this paper, we approach this challenge through: I) a convolutional neural network (CNN) running in real time on a single core, II) a novel computational intensive two stage CNN for accuracy improvement, and III) a fast propability distribution based refinement method as a practical alternative to II. We evaluate the proposed approaches against the state-of-the-art pupil detection algorithms, improving the detection rate up to ~9% percent points on average over all data sets (~7% on one CPU core 7ms). This evaluation was performed on over 135,000 images: 94,000 images from the literature, and 41,000 new hand-labeled and challenging images contributed by this work (v1.0).

연구 동기 및 목표

실세계 환경에서 퍼스널리티가 높고 비차별적인 비디오 기반 눈 추적에 적합한 실시간, 정확하고 안정적인 동공 검출 시스템을 개발하는 것.
조도 변화, 반사, 가림, 축외 눈 위치, 생리적 변동성과 같은 동공 검출의 핵심 과제를 해결하는 것.
최소한의 계산 비용으로 높은 정확도를 달성하여 GPU 가속 없이도 표준 CPU에서의 구현을 가능하게 하는 것.
135,000장의 이미지로 구성된 대규모이고 다양한 데이터셋에서의 평가를 수행하며, 이 중 41,000장은 새로 수집한 도전적인 실세계 샘플이다.
재현 가능성과 향후 연구를 위해 훈련된 모델, 코드, 데이터를 공개하는 것.

제안 방법

두 단계의 CNN 파이프라인: 첫 번째로 얕은 CNN이 압축된 이미지 패치를 처리하여 거친 동공 중심 추정치를 생성한다.
두 번째로 더 복잡한 CNN이 거친 추정치 주변의 작은 국소 창에서 동공 위치를 정밀하게 보정하여 노이즈와 계산 부담을 감소시킨다.
전체 두 단계 네트워크의 경량 대체 방법으로 확률 분포 기반의 보정 방법을 도입하여 속도와 정확도의 균형을 맞춘다.
거친 네트워크는 커널 크기 8×8 및 풀링 크기 8×8(CK8P8)를 사용하며, 더 정확한 변형은 8×8 커널에 16×16 풀링(SK8P8)을 사용한다.
최종 보정 단계는 SK8P8에 대해 21×21 검색 창, CK8P8에 대해 49×49 창을 사용하며, 계산을 줄이기 위해 후보 위치에서만 반응을 계산한다.
모든 모델은 135,000장의 이미지로 구성된 대규모이고 다양한 데이터셋에서 엔드 투 엔드로 훈련된다. 이 중 41,000장은 아티팩트가 포함된 새로 수집한 실세계 이미지이다.

실험 결과

연구 질문

RQ1두 단계의 CNN 파이프라인이 최신 기술 대비 실세계의 도전적인 조건에서 더 높은 동공 검출 정확도를 달성할 수 있는가?
RQ2이러한 파이프라인이 GPU 가속 없이도 단일 코어 CPU에서 실시간으로 작동할 수 있는가?
RQ3경량의 확률 기반 보정 방법의 성능이 전체 두 단계 네트워크와 정확도와 속도 측면에서 어떻게 비교되는가?
RQ4제안된 방법이 반사, 가림, 조도 변화를 포함한 다양한 실세계 눈 추적 시나리오에 얼마나 일반화되는가?
RQ5이 방법은 높은 검출 정확도를 유지하면서도 퍼스널리티가 높고 임베디드 눈 추적 시스템에 적합한 낮은 계산 비용을 달성할 수 있는가?

주요 결과

제안된 두 단계 CNN(F_{SK8P8})는 5픽셀 오차 기준으로 모든 데이터셋에서 최신 기술 중 가장 우수한 성능을 보인 ElSe 대비 평균 검출 정확도를 약 9%포인트 향상시켰다.
SK8P8 기반 방법은 가장 도전적인 신규 데이터셋(new V)에서 5픽셀 오차가 0.33으로, ElSe(0.57)와 ExCuSe(0.56)를 크게 앞서며 뛰어난 성능을 보였다.
경량 SK8P8 변형은 단일 코어 인텔 i5-4570에서 런타임이 단 7ms에 불과하여 표준 CPU에서도 실시간 성능을 달성했다.
F_{CKXPY} 모델은 가장 어려운 데이터셋(XIV)에서 평균 검출률 0.95를 기록했지만, 계산 비용이 매우 높아(1.2초/추론) 상대적으로 높았다.
확률 분포 기반 보정 방법은 신규 IV 데이터셋에서 7ms 추론 시간에 5픽셀 오차가 0.54로 나타나 뛰어난 속도-정확도 트레이드오프를 보였다.
신규로 수집한 실세계 데이터인 I 데이터셋에서 5픽셀 오차가 0.62로, 베이스라인 ExCuSe의 0.22보다 훨씬 높은 정확도를 기록하여 뛰어난 강건성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.