[論文レビュー] Explainable vision transformer enabled convolutional neural network for plant disease identification: PlantXViT
PlantXViTは、植物病害識別のための軽量なハイブリッドCNN–ViTモデルで、五つの公開データセット上で複数の最先端CNNを上回り、Grad-CAMと LIME による説明性を提供します。
Plant diseases are the primary cause of crop losses globally, with an impact on the world economy. To deal with these issues, smart agriculture solutions are evolving that combine the Internet of Things and machine learning for early disease detection and control. Many such systems use vision-based machine learning methods for real-time disease detection and diagnosis. With the advancement in deep learning techniques, new methods have emerged that employ convolutional neural networks for plant disease detection and identification. Another trend in vision-based deep learning is the use of vision transformers, which have proved to be powerful models for classification and other problems. However, vision transformers have rarely been investigated for plant pathology applications. In this study, a Vision Transformer enabled Convolutional Neural Network model called "PlantXViT" is proposed for plant disease identification. The proposed model combines the capabilities of traditional convolutional neural networks with the Vision Transformers to efficiently identify a large number of plant diseases for several crops. The proposed model has a lightweight structure with only 0.8 million trainable parameters, which makes it suitable for IoT-based smart agriculture services. The performance of PlantXViT is evaluated on five publicly available datasets. The proposed PlantXViT network performs better than five state-of-the-art methods on all five datasets. The average accuracy for recognising plant diseases is shown to exceed 93.55%, 92.59%, and 98.33% on Apple, Maize, and Rice datasets, respectively, even under challenging background conditions. The efficiency in terms of explainability of the proposed model is evaluated using gradient-weighted class activation maps and Local Interpretable Model Agnostic Explanation.
研究の動機と目的
- スマート農業における正確で説明可能な植物病害識別の必要性を動機づける。
- CNNとVision Transformerブロックを組み合わせた軽量ハイブリッドアーキテクチャを提案する。
- PlantXViTが多様な作物データセット全体で高い精度を達成しつつ解釈性を維持することを示す。
提案手法
- 二つのブロックの事前学習済み VGG16、inception-v7 ブロック、および四つの Transformer エンコーダブロックを用いて PlantXViT を構成する。
- CNNの特徴マップを5x5パッチに変換し、線形に射影し、四ブロックのTransformerエンコーダで処理する。
- Adamオプティマイザを用いたカテゴリクロスエントロピーロスで訓練;学習率0.0001、バッチサイズ16。
- Grad-CAMとLIMEで説明性を評価する。
- データセットの前処理には224x224x3へのリサイズと五つの公開植物病データセットの使用を含む。
実験結果
リサーチクエスチョン
- RQ1PlantXViTハイブリッドアーキテクチャは、最近のCNNベース手法と比較して多様な植物病データセットでどの程度性能を発揮するか?
- RQ2CNN機能とViTブロックを統合することで植物病分類の精度と説明性の両方が改善されるか?
- RQ3Grad-CAMとLIMEはデータセットを横断してPlantXViTの予測を説明する際にどれほど効果的か?
- RQ4PlantXViTのViTコンポーネントにとって最適なパッチサイズは何か、最高の性能のために?
- RQ5データセットのサイズやクラスの不均衡が変化した場合、PlantXViTはどのように性能を発揮するか?
主な発見
- PlantXViTは五つの公開データセットで高い精度を達成し、五つの最先端CNNベース手法を全データセットで上回る。
- パッチサイズの実験により、5x5パッチがデータセット全体での精度、適合率、再現率、およびF1の総合性能で最良を示す。
- 説明性分析(Grad-CAMとLIME)は、モデルの意思決定への洞察を提供し、予測に寄与する局所領域を強調する。
- モデルは約0.85百万の学習可能パラメータを持ち、IoT対応のスマート農業デバイスに適している。
- データセットを横断して、PlantXViTは強いROC/AUC性能と競争力の Cohen’s kappa スコアを示し、さまざまな条件下で信頼できる分類を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。