QUICK REVIEW

[論文レビュー] Self-Supervised ImageNet Representations for In Vivo Confocal Microscopy: Tortuosity Grading without Segmentation Maps

Kim Ouan, Noémie Moreau|arXiv (Cornell University)|Mar 16, 2026

Ocular Surface and Contact Lens被引用数 0

ひとこと要約

論文は自己教師ありの ImageNet 特徴（DINO の variants）を用いて segmentation maps なしで in vivo confocal microscopy の角膜神経のねじれ度を評価できることを示し、ファインチューニング後に最先端の性能を達成します。

ABSTRACT

The tortuosity of corneal nerve fibers are used as indication for different diseases. Current state-of-the-art methods for grading the tortuosity heavily rely on expensive segmentation maps of these nerve fibers. In this paper, we demonstrate that self-supervised pretrained features from ImageNet are transferable to the domain of in vivo confocal microscopy. We show that DINO should not be disregarded as a deep learning model for medical imaging, although it was superseded by two later versions. After careful fine-tuning, DINO improves upon the state-of-the-art in terms of accuracy (84,25%) and sensitivity (77,97%). Our fine-tuned model focuses on the key morphological elements in grading without the use of segmentation maps.

研究の動機と目的

ImageNet-pretrained の自己教師あり特徴が IVCM のねじれ度評価へ転移可能であることを実証する。
DINO、DINOv2、DINOv3 の表現を CORN データセット上で線形プロービングで評価する。
最も性能の良いバックボーンをファインチューニングして、 segmentation maps なしで評価精度と感度を最大化する。

提案手法

CORN1500 と CORN-3 データセットを four-level のねじれラベルで使用する。
冻结されたバックボーンに単一の線形層を接続して線形プロービングを100エポック訓練する。
最適な DINO バリアント（DINO ViT-B）を partial backbone freezing と AdamW 最適化でファインチューニングします。
線形ウォームアップとコサイン減衰スケジュールを用いてファインチューニングを行い、単一 GPU で早期停止を適用する。
segmentation maps に依存する最先端手法と性能を比較する。

実験結果

リサーチクエスチョン

RQ1自己教師ありの ImageNet 表現は segmentation maps なしで IVCM のねじれ度評価を可能にするか？
RQ2DINO のどのバージョンとモデルサイズがねじれ分類の線形プロービング性能で最も良いか？
RQ3凍結バックボーンの DINO をファインチューニングするとねじれ評価は最先端レベルに改善するか？
RQ4得られたアテンションマップは解剖学的に関連する神経線維の特徴（分岐点、曲率の高いセグメント）に焦点を当てるか？

主な発見

凍結された DINO 表現は CORN-3 で競争力のある線形プロービング性能を達成し、DINO ViT-B/16 がしばしば指標バランスで最適な結果を示す。
ファインチューニングした DINO ViT-B/16 は segmentation maps なしで最先端の結果を達成: wAcc 84.25%、wSe 77.97%、wSp 84.81% の CORN-3。
このタスクにおいては、より大きいまたは新しいバックボーンを用いた DINO バリアントは線形プロービングで DINO ViT-B/16 より一般的に劣る。
ファインチューニング後のアテンションマップは、分岐点や湾曲したセグメントなどねじれに関連する領域にモデルが焦点を当てることを示している。
CORN-3-noD では、ファインチューニングされた DINO ViT-B/16 は wAcc 83.71%、wSe 75.88%、wSp 87.92% を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。