[논문 리뷰] OpenEDS: Open Eye Dataset
OpenEDS는 다중 클래스 눈 영역 주석(홍채, 동공, 공막, 배경)을 포함한 대규모 VR 중심 눈 이미지 데이터세트를 제공하며, 비표시 이미지, 비디오 시퀀스, 각막 토포그래피를 포함합니다. 기본 의미론적 분할 실험은 높은 mIoU를 달성하여 VR에서의 눈 추적 연구를 위한 OpenEDS의 활용도를 보여줍니다.
We present a large scale data set, OpenEDS: Open Eye Dataset, of eye-images captured using a virtual-reality (VR) head mounted display mounted with two synchronized eyefacing cameras at a frame rate of 200 Hz under controlled illumination. This dataset is compiled from video capture of the eye-region collected from 152 individual participants and is divided into four subsets: (i) 12,759 images with pixel-level annotations for key eye-regions: iris, pupil and sclera (ii) 252,690 unlabelled eye-images, (iii) 91,200 frames from randomly selected video sequence of 1.5 seconds in duration and (iv) 143 pairs of left and right point cloud data compiled from corneal topography of eye regions collected from a subset, 143 out of 152, participants in the study. A baseline experiment has been evaluated on OpenEDS for the task of semantic segmentation of pupil, iris, sclera and background, with the mean intersectionover-union (mIoU) of 98.3 %. We anticipate that OpenEDS will create opportunities to researchers in the eye tracking community and the broader machine learning and computer vision community to advance the state of eye-tracking for VR applications. The dataset is available for download upon request at https://research.fb.com/programs/openeds-challenge
연구 동기 및 목표
- 자세한 눈 영역 주석이 포함된 대규모의 고해상도 VR 눈 이미지 데이터셋 필요성을 다룬다.
- 다수 참가자에 걸쳐 200 Hz로 동기화된 눈 카메라를 갖춘 컨트롤된 캡처 데이터(VR HMD)를 제공한다.
- 눈 추적 및 시선 추정 연구를 지원하기 위한 다각적 데이터(이미지, 마스크, 비디오, 각막 토포그래피)를 제공한다.
- 동공/홍채/공막/배경 분할에 대한 베이스라인 의미론적 분할 성능을 입증한다.
제안 방법
- 제작된 VR HMD를 사용해 200 Hz로 동기화된 두 카메라로 제어된 조명 하에서 눈 이미지를 캡처한다.
- 눈꺼풀, 홍채(타원 및 경계점), 동공(타원 및 경계)을 마스크로 주석하여 12,759장의 이미지를 다중 클래스 분할 가능하게 한다.
- 추가로 비표시 이미지(252,690)와 시퀀스 기반 작업을 위한 91,200 비디오 프레임을 제공한다.
- Scheimpflug 이미징을 사용해 143개의 좌/우 눈 포인트 클라우드를 각막 토포그래피로 기록하고 이를 전체 눈 영역 데이터에 매핑한다.
- 경계 보정 및 분리 가능한 합성곱을 갖춘 수정된 SegNet 기반 아키텍처(mSegnet)를 사용하여 베이스라인 분할을 평가한다.
실험 결과
연구 질문
- RQ1대규모의 고해상도 눈 이미지 데이터셋이 눈 영역 분할을 VR 시선 추적에 대해 개선할 수 있는가?
- RQ2제어된 VR 눈 이미지에서 신경망이 동공, 홍채, 공막, 배경을 얼마나 잘 분할하는가?
- RQ3경계 인지 및 효율적인 아키텍처가 눈 데이터의 분할 정확도와 모델 크기에 미치는 영향은 무엇인가?
주요 결과
| 모델 | 픽셀 정확도 | 평균 정확도 | F1 | IoU | 크기(MB) |
|---|---|---|---|---|---|
| mSegnet | 98.0 | 96.8 | 97.9 | 90.7 | 3.5 |
| mSegnet w/ BR | 98.3 | 97.5 | 98.3 | 91.4 | 3.5 |
| mSegnet w/ SC | 97.6 | 96.6 | 97.4 | 89.5 | 0.4 |
- OpenEDS에는 12,759장의 주석 이미지, 252,690장의 비표시 이미지, 91,200장의 비디오 프레임, 152명의 참가자로부터 수집된 286개의 각막 토포그래피 포인트 클라우드가 포함되어 있다.
- 베이스라인 의미론적 분할은 SegNet 기반 BR 모델로 pupil/iris/sclera/background에서 최대 mIoU 91.4%를 달성했다.
- 최고 수행 모델(경계 보정이 있는 SegNet)은 픽셀 정확도 98.3, 평균 정확도 97.5, F1 98.3, IoU 91.4, 매개변수 크기 3.5 MB를 달성했다.
- BR이 없는 SegNet 변형은 IoU 및 F1에서 BR 변형보다 낮게 나타났고, 더 복잡한 모델(SC)은 파라미터 크기는 작지만 정확도가 떨어졌다.
- 주석 프로토콜은 홍채와 동공에 대한 타원 및 다각형 주석, 그리고 18포인트의 eyelid 주석을 포함해 눈 영역 분할의 정밀성을 높인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.