[논문 리뷰] TurkerGaze: Crowdsourcing Saliency with Webcam based Eye Tracking
이 논문은 아마존 메커니컬 터커에서 웹캠을 활용한 컬러스드 아이 트래킹 시스템인 TurkerGaze를 제안한다. 이 시스템은 대규모로 고품질의 시각적 주목 데이터를 수집할 수 있도록 하며, 게임화된 인터페이스를 통합함으로써 랩터 기반의 정확도를 확보하면서도 훨씬 낮은 비용과 노력으로 구현된다. 이를 통해 자연 풍경 이미지 20,608장에 대해 평균 3명의 관찰자가 참여한 대규모 시각적 주목 데이터셋인 iSUN을 구축할 수 있었다.
Traditional eye tracking requires specialized hardware, which means collecting gaze data from many observers is expensive, tedious and slow. Therefore, existing saliency prediction datasets are order-of-magnitudes smaller than typical datasets for other vision recognition tasks. The small size of these datasets limits the potential for training data intensive algorithms, and causes overfitting in benchmark evaluation. To address this deficiency, this paper introduces a webcam-based gaze tracking system that supports large-scale, crowdsourced eye tracking deployed on Amazon Mechanical Turk (AMTurk). By a combination of careful algorithm and gaming protocol design, our system obtains eye tracking data for saliency prediction comparable to data gathered in a traditional lab setting, with relatively lower cost and less effort on the part of the researchers. Using this tool, we build a saliency dataset for a large number of natural images. We will open-source our tool and provide a web server where researchers can upload their images to get eye tracking results from AMTurk.
연구 동기 및 목표
- 전통적인 랩 기반 아이 트래킹 방식이 시각적 주목 데이터 수집에 있어 높은 비용과 제한된 확장성 문제를 해결하기 위해.
- 통제되지 않은 환경에서도 신뢰성 있게 작동하는 브라우저 기반 웹캠 기반 아이 트래킹 시스템을 개발하기 위해.
- 특수 훈련 없이도 참가자가 정확한 눈동자 이동 데이터를 생성하도록 유도할 수 있는 게임화된 인터페이스를 설계하기 위해.
- 커스터마이징된 참가자를 활용해 자연 풍경에 대한 자유 시선 주목 데이터셋을 대규모로 수집하기 위해.
- 골드 표준 랩 데이터와 비교해 컬러스드된 눈동자 이동 데이터의 품질을 검증하고, 시각적 주목 모델을 벤치마킹하기 위해.
제안 방법
- 기계적 터커 작업자로부터 눈동자 이동 데이터를 수집하기 위해 브라우저 기반 게임 내에서 웹캠 기반 아이 트래킹 시스템을 구현한 것.
- 캘리브레이션 최소화를 위해 눈의 외형 기반 눈동자 추정과 적응형 선형 회귀를 사용한 것.
- 지속적인 주의 집중과 정확한 정지 시선 보고를 유도하기 위해 '목표를 찾기'와 '차이를 찾아내기' 두 가지 게임 시나리오를 설계한 것.
- 합성 훈련 데이터와 희소한 캘리브레이션 포인트를 활용해 실시간 눈동자 추정 파이프라인을 적용하여 머리 이동과 다양한 조명 조건을 보정한 것.
- 이미지 당 다수의 참가자로부터 수집된 눈동자 이동 데이터를 집계해 강력한 시각적 주목 맵를 생성하고, 객체/장면 전체에 대한 애너테이션을 포함한 iSUN 데이터셋을 구축한 것.
- AUC, 정밀도, 재현율, 랩 데이터와의 정지 시선 분포 유사도 등 표준 메트릭을 사용해 성능을 평가한 것.
실험 결과
연구 질문
- RQ1아마존 메커니컬 터커와 같은 컬러스드 플랫폼에서 웹캠 기반 아이 트래킹이 전통적인 랩 기반 아이 트래킹 수준의 시각적 주목 데이터 품질을 달성할 수 있는가?
- RQ2TurkerGaze를 통해 수집된 눈동자 이동 데이터는 정지 시선 정확도와 분포 측면에서 골드 표준 랩 데이터와 비교해 어떻게 다른가?
- RQ3TurkerGaze를 통해 수집된 컬러스드된 눈동자 이동 데이터는 시각적 주목 예측 모델의 훈련 및 평가에 어느 정도 활용될 수 있는가?
- RQ4기계적 터커 참가자의 인구통계학적 및 행동적 다양성이 수집된 눈동자 이동 데이터의 신뢰성과 일반화 가능성에 어떤 영향을 미치는가?
- RQ5제안된 시스템은 자유 시선 자연 풍경 외의 다른 시각적 자극과 작업에 일반화될 수 있는가?
주요 결과
- TurkerGaze 시스템은 전통적인 랩 기반 아이 트래킹과 비교해 유사한 눈동자 추정 정확도를 달성했으며, 정지 시선 추정의 평균 절대 오차는 1.05°였다.
- TurkerGaze를 통해 수집된 정지 시선 분포는 랩 데이터보다 더 중심에 집중되어 있었는데, 이는 시각화 행동의 차이 또는 이미지 표시 방식의 차이 때문일 가능성이 있다.
- AMTurk 데이터를 사용한 시각적 주목 예측에 대한 리브 온 아웃 AUC는 Judd 랩 데이터보다 낮아, 컬러스드된 데이터에 더 높은 위치 노이즈가 있음을 시사한다.
- 노이즈가 존재하더라도 TurkerGaze 데이터에서 유도된 시각적 주목 맵는 최신 기술 수준의 계산 모델과 유사한 AUC 점수를 기록했으며, 이는 훈련 및 평가에 유용함을 보여준다.
- TurkerGaze를 활용해 구축한 iSUN 데이터셋은 평균 3명의 관찰자가 참여한 자연 풍경 이미지 20,608장을 포함하고 있으며, 현재까지 가장 대규모의 자유 시선 시각적 주목 데이터셋이다.
- 이 시스템은 캘리브레이션의 필요성을 크게 줄였고, 일반 소비자 하드웨어에서도 실시간 눈동자 추적을 가능하게 하여 확장 가능한 데이터 수집을 실현했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.