Skip to main content
QUICK REVIEW

[논문 리뷰] Detecting Severity of Diabetic Retinopathy from Fundus Images: A Transformer Network-based Review

Tejas Mohan Karkera, Chandranath Adak|arXiv (Cornell University)|2023. 01. 03.
Retinal Imaging and Analysis참고 문헌 58인용 수 9
한 줄 요약

본 논문은 네 가지 이미지 트랜스포머 모델(ViT, BEiT, CaiT, DeiT)을 앙상블하여 fundus 영상으로 당뇨망막병증(DR) 중증도를 자동으로 평가하고, APTOS-2019에서 최첨단 정확도를 달성한다.

ABSTRACT

Diabetic Retinopathy (DR) is considered one of the significant concerns worldwide, primarily due to its impact on causing vision loss among most people with diabetes. The severity of DR is typically comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this study, we adopt and fine-tune transformer-based learning models to capture the crucial features of retinal images for a more nuanced understanding of DR severity. Additionally, we explore the effectiveness of image transformers to infer the degree of DR severity from fundus photographs. For experiments, we utilized the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.

연구 동기 및 목표

  • 펀더스 사진에서 자동 DR 중증도 등급화를 촉진하여 수동 등급의 불일치를 줄인다.
  • DR 분류를 위한 중요한 망막 특징을 포착하기 위해 트랜스포머 기반 아키텍처를 탐구한다.
  • DR 중증도 작업의 예측 성능을 향상시키기 위해 다중 이미지 트랜스포머의 앙상블을 개발한다.

제안 방법

  • 입력을 표준화하기 위해 리사이징, 증강 및 CLAHE로 펀더스 이미지를 전처리한다.
  • DR 중증도 분류를 위해 네 가지 이미지 트랜스포머(ViT, BEiT, CaiT, DeiT)를 적응시키고 학습한다.
  • 가중 평균과 다수결을 사용하여 네 가지 트랜스포머를 앙상블하여 최종 예측을 생성한다.
  • 정확도, 카파, 정밀도, 재현율, F1, 특이도, 균형 정확도 등 지표를 포함하여 APTOS-2019 데이터셋에서 성능을 평가한다.
  • 개별 트랜스포머 및 MSA 헤드의 기여도를 평가하기 위한 애블레이션 및 하이퍼파라미터 분석을 수행한다.
Figure 2: Workflow of ViT.
Figure 2: Workflow of ViT.

실험 결과

연구 질문

  • RQ1트랜스포머 기반 모델이 펀더스 이미지에서 DR 중증도 특징을 효과적으로 학습할 수 있는가?
  • RQ2다중 이미지 트랜스포머를 앙상블하는 것이 DR 중증도 등급화에서 단일 모델보다 더 우수한 성능을 내는가?
  • RQ3전처리와 하이퍼파라미터가 트랜스포머를 활용한 DR 중증도 분류에 미치는 영향은 무엇인가?

주요 결과

앙상블 트랜스포머가중 평균 정확도 (%)다수결 정확도 (%)
ViT82.21
DeiT85.65
BEiT86.74
CaiT86.91
ViT + DeiT87.0386.55
ViT + BEiT87.4887.03
ViT + CaiT87.7787.21
DeiT + BEiT88.1887.69
DeiT + CaiT88.8687.93
BEiT + CaiT89.2888.12
ViT + DeiT + BEiT90.5388.87
ViT + DeiT + CaiT91.3989.56
ViT + BEiT + CaiT92.1490.28
DeiT + BEiT + CaiT93.4690.91
ViT + DeiT + BEiT + CaiT94.6391.26
  • 앙상블 이미지 트랜스포머(EiT)는 가중 평균으로 94.63% 정확도, 다수결로 91.26%를 달성하여 APTOS-2019 테스트 세트에서 성과를 보였다.
  • 가중 평균을 이용한 EiT는 Cohen's kappa 0.92 및 균형 정확도 95.75%를 달성했으며(구성 중 최고로 보고된 수치).
  • 단일 CaiT 트랜스포머가 앙상블 이전에 단일 모델 중에서 가장 우수했고, 앙상블 방법이 개별 모델을 능가한다.
  • 중증도 클래스 전반에서 EiT는 음성 DR(class 0)에 대해 높은 정밀도와 재현율을 달성하고, 다른 단계에서 다소 차이가 있으며 전반적으로 높은 특이도를 보인다.
  • 하이퍼-파라미터 분석에서 MSA 헤드를 6까지 증가시키면 성능이 향상되며, 가중 평균 앙상블의 알파 가중치를 조정하면 피크 정확도 94.63%를 얻는다.
  • 일반적인 CNN 기반 아키텍처 및 다른 트랜스포머와 비교하여 EiT가 정확도, 균형 정확도, 민감도 및 특이도에서 우수하다.
Figure 3: Internal view of a transformer encoder (TE).
Figure 3: Internal view of a transformer encoder (TE).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.