QUICK REVIEW

[論文レビュー] OpenEDS: Open Eye Dataset

Stephan J. Garbin, Yiru Shen|arXiv (Cornell University)|Apr 30, 2019

Retinal Imaging and Analysis参考文献 45被引用数 68

ひとこと要約

OpenEDSは大規模なVR重視の視画像データセットを提供し、虹彩・瞳孔・強膜・背景の多クラス眼領域アノテーション、未ラベル画像、動画シーケンス、角膜トポグラフィを含みます。ベースラインのセマンティックセグメンテーション実験は高いmIoUを達成しており、VRでの視線追跡研究におけるOpenEDSの有用性を示しています。

ABSTRACT

We present a large scale data set, OpenEDS: Open Eye Dataset, of eye-images captured using a virtual-reality (VR) head mounted display mounted with two synchronized eyefacing cameras at a frame rate of 200 Hz under controlled illumination. This dataset is compiled from video capture of the eye-region collected from 152 individual participants and is divided into four subsets: (i) 12,759 images with pixel-level annotations for key eye-regions: iris, pupil and sclera (ii) 252,690 unlabelled eye-images, (iii) 91,200 frames from randomly selected video sequence of 1.5 seconds in duration and (iv) 143 pairs of left and right point cloud data compiled from corneal topography of eye regions collected from a subset, 143 out of 152, participants in the study. A baseline experiment has been evaluated on OpenEDS for the task of semantic segmentation of pupil, iris, sclera and background, with the mean intersectionover-union (mIoU) of 98.3 %. We anticipate that OpenEDS will create opportunities to researchers in the eye tracking community and the broader machine learning and computer vision community to advance the state of eye-tracking for VR applications. The dataset is available for download upon request at https://research.fb.com/programs/openeds-challenge

研究の動機と目的

大規模で高解像度のVR眼画像データセットを、眼領域の詳細アノテーションと共に提供する必要性に対応する。
200 Hzで同期した眼カメラを備えたVR HMDを用いた統制捕捉データを多数の参加者に渡って提供する。
眼追跡と視線推定研究を支援するため、画像・マスク・動画・角膜トポグラフィといった多面的データを提供する。
pupil/iris/sclera/background のセグメンテーションに対するベースラインのセマンティックセグメンテーション性能を実証する。

提案手法

制御照明下で200 Hzの二つの同期カメラを搭載したカスタムVR HMDを用いて眼の画像を取得する。
瞼、虹彩（楕円と境界点）、瞳孔（楕円と境界）についてマスクを付け、12,759 枚の画像を多クラスセグメンテーション対応でアノテーションする。
追加の未ラベル画像（252,690）とシーケンスベースのタスク用の91,200動画フレームを提供する。
Scheimpflug撮影を用いて左/右眼それぞれの角膜トポグラフィを143点の点群として記録し、眼領域データへマッピングする。
境界 refinement と separable convolutions を用いた修正SegNetベースのアーキテクチャ（mSegnet）でベースラインセグメンテーションを評価する。

実験結果

リサーチクエスチョン

RQ1VR視線追跡のために、視線領域マスクを持つ大規模で高解像度の眼画像データセットは眼領域セグメンテーションを改善できるか。
RQ2制御されたVR眼画像において、ニューラルネットワークは瞳孔・虹彩・強膜・背景をどの程度正確にセグメントできるか。
RQ3境界を意識した効率的なアーキテクチャが、眼データのセグメンテーション精度とモデルサイズに与える影響は何か。

主な発見

モデル	ピクセル精度	平均精度	F1	IoU	サイズ（MB）
mSegnet	98.0	96.8	97.9	90.7	3.5
mSegnet w/ BR	98.3	97.5	98.3	91.4	3.5
mSegnet w/ SC	97.6	96.6	97.4	89.5	0.4

OpenEDSには152名の参加者から、12,759 枚のアノテーション済み画像、252,690 枚の未ラベル画像、91,200 の動画フレーム、286 の角膜トポグラフィ点群が含まれる。
ベースラインのセマンティックセグメンテーションは、瞳孔/虹彩/強膜/背景のBRモデルを用いてmIoUが最大91.4%に達した。
最も高性能なモデル（境界 refinement を行った SegNet）は、ピクセル精度が98.3、平均精度が97.5、F1が98.3、IoUが91.4で、パラメータは3.5 MB。
BRなしのSegNet派生はIoUとF1でBRバリアントより低く、より複雑なモデル（SC）はフットプリントは小さくなるが精度が低下する。
アノテーションプロトコルには虹彩と瞳孔の楕円および多角形アノテーション、さらに18点の瞼アノテーションが含まれ、眼領域のセグメンテーションを高精度に可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。