Skip to main content
QUICK REVIEW

[논문 리뷰] Explainable vision transformer enabled convolutional neural network for plant disease identification: PlantXViT

Poornima Singh Thakur, Pritee Khanna|arXiv (Cornell University)|2022. 07. 16.
Smart Agriculture and AI인용 수 40
한 줄 요약

PlantXViT는 식물 질병 식별을 위한 가볍고 하이브리드 CNN–ViT 모델로, 다섯 개 공개 데이터셋에서 여러 최첨단 CNN을 능가하며 Grad-CAM과 LIME을 통한 설명 가능성을 제공합니다.

ABSTRACT

Plant diseases are the primary cause of crop losses globally, with an impact on the world economy. To deal with these issues, smart agriculture solutions are evolving that combine the Internet of Things and machine learning for early disease detection and control. Many such systems use vision-based machine learning methods for real-time disease detection and diagnosis. With the advancement in deep learning techniques, new methods have emerged that employ convolutional neural networks for plant disease detection and identification. Another trend in vision-based deep learning is the use of vision transformers, which have proved to be powerful models for classification and other problems. However, vision transformers have rarely been investigated for plant pathology applications. In this study, a Vision Transformer enabled Convolutional Neural Network model called "PlantXViT" is proposed for plant disease identification. The proposed model combines the capabilities of traditional convolutional neural networks with the Vision Transformers to efficiently identify a large number of plant diseases for several crops. The proposed model has a lightweight structure with only 0.8 million trainable parameters, which makes it suitable for IoT-based smart agriculture services. The performance of PlantXViT is evaluated on five publicly available datasets. The proposed PlantXViT network performs better than five state-of-the-art methods on all five datasets. The average accuracy for recognising plant diseases is shown to exceed 93.55%, 92.59%, and 98.33% on Apple, Maize, and Rice datasets, respectively, even under challenging background conditions. The efficiency in terms of explainability of the proposed model is evaluated using gradient-weighted class activation maps and Local Interpretable Model Agnostic Explanation.

연구 동기 및 목표

  • 스마트 농업에서 정확하고 설명 가능한 식물 질병 식별의 필요성을 동기화한다.
  • CNN과 Vision Transformer 블록을 결합한 가볍고 하이브리드한 아키텍처를 제안한다.
  • PlantXViT가 다양한 작물 데이터셋에서 높은 정확도를 달성하면서 해석 가능성을 유지하는지 보여준다.

제안 방법

  • 두 개의 사전 학습된 VGG16 블록, an inception-v7 block, and four transformer encoder blocks to form PlantXViT.
  • CNN 피처 맵을 5x5 패치로 변환하고 선형으로 투영한 후, 네 블록 Transformer encoder로 처리한다.
  • Adam 옵티마이저를 사용하여 범주형 교차 엔트로피 손실로 학습하며, 학습률 0.0001이고 배치 크기 16이다.
  • Grad-CAM 및 LIME으로 설명 가능성을 평가한다.
  • 데이터셋 전처리에는 224x224x3으로 크기 조정하고 다섯 개의 공개 식물-질병 데이터셋을 사용하는 것을 포함한다.

실험 결과

연구 질문

  • RQ1PlantXViT 하이브리드 아키텍처가 다양한 식물-질병 데이터셋에서 최신 CNN 기반 방법과 비교하여 얼마나 잘 수행합니까?
  • RQ2CNN 특성에 ViT 블록을 통합하면 식물 질병 분류의 정확도 및 설명 가능성이 향상됩니까?
  • RQ3Grad-CAM과 LIME이 PlantXViT의 예측을 데이터셋 전체에 걸쳐 설명하는 데 얼마나 효과적입니까?
  • RQ4PlantXViT의 ViT 구성요소에 대한 최적 패치 크기는 성능에 최적합합니까?
  • RQ5데이터셋 크기와 클래스 불균형이 달라질 때 PlantXViT는 어떻게 작동합니까?

주요 결과

  • PlantXViT는 다섯 개의 공개 데이터셋에서 높은 정확도를 달성하고, 모든 데이터셋에서 다섯 개의 최첨단 CNN 기반 방법을 능가합니다.
  • 패치 크기 실험은 5x5 패치가 데이터셋 전체에서 정확도, 정밀도, 재현율 및 F1 모두에서 최상의 성능을 보임을 시사합니다.
  • 설명가능성 분석(Grad-CAM 및 LIME)은 모델 의사결정에 대한 통찰을 제공하고 예측에 기여하는 국부 영역을 강조합니다.
  • 모델은 약 0.85 million trainable parameters로 가볍고 IoT 지원 스마트 농업 기기에 적합합니다.
  • 데이터셋 전반에 걸쳐 PlantXViT는 강력한 ROC/AUC 성능과 경쟁력 있는 Cohen’s kappa 점수를 보여주며, 다양한 조건에서도 신뢰할 수 있는 분류를 나타냅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.