Skip to main content
QUICK REVIEW

[論文レビュー] Overview of PlantCLEF 2022: Image-based plant identification at global scale

Hervé Goëau, Pierre Bonnet|ArXiv.org|Sep 22, 2025
Smart Agriculture and AI被引用数 23
ひとこと要約

この論文は PlantCLEF 2023(LifeCLEF 2023 Plant Identification タスク)を概説し、CNNと Vision Transformer を用いた大規模な画像ベースの植物同定を分析し、SSL事前学習済み ViT の有用性と訓練におけるウェブデータの利点を強調する。参加ランの主な結果表も提示する。

ABSTRACT

It is estimated that there are more than 300,000 species of vascular plants in the world. Increasing our knowledge of these species is of paramount importance for the development of human civilization (agriculture, construction, pharmacopoeia, etc.), especially in the context of the biodiversity crisis. However, the burden of systematic plant identification by human experts strongly penalizes the aggregation of new data and knowledge. Since then, automatic identification has made considerable progress in recent years as highlighted during all previous editions of PlantCLEF. Deep learning techniques now seem mature enough to address the ultimate but realistic problem of global identification of plant biodiversity in spite of many problems that the data may present (a huge number of classes, very strongly unbalanced classes, partially erroneous identifications, duplications, variable visual quality, diversity of visual contents such as photos or herbarium sheets, etc). The PlantCLEF2022 challenge edition proposes to take a step in this direction by tackling a multi-image (and metadata) classification problem with a very large number of classes (80k plant species). This paper presents the resources and evaluations of the challenge, summarizes the approaches and systems employed by the participating research groups, and provides an analysis of key findings.

研究の動機と目的

  • 生物多様性モニタリングを支援するための自動化されたグローバル規模の植物種識別の動機づけ。
  • 評価に使用された2つの大規模な訓練データセット(trustedとweb)とテストセットの説明。
  • 80,000種に対する参加手法、アーキテクチャ、訓練戦略の要約。
  • 将来の大規模植物同定研究を導くための主要な発見の分析。

提案手法

  • データセットの構築の説明:GBIF由来の厳選画像とノイズのあるウェブ画像からなる、80k種にわたる合計400万枚の画像。
  • 複数画像観測を用いた植物同定タスクを評価し、 MA-MRR を指標として用いる。
  • アーキテクチャの選択(CNN対 Vision Transformer)と事前学習(STL対 SSL、EVA、MAE)に焦点を当てた参加手法の調査。
  • 事前に定義されたリーダーボードのランの結果を報告し、設定間で性能を比較。
  • Webデータ、臓器別サブモデル、事前学習戦略が MA-MRR に与える影響を分析。

実験結果

リサーチクエスチョン

  • RQ1大規模なマルチ画像訓練セットが植物種検索性能に与える影響は何か?
  • RQ2この大規模な植物同定タスクで、自己教師あり事前学習を用いたVision Transformerは、教師あり転移学習を用いたCNNより性能が良いか?
  • RQ3ノイズのあるウェブデータの含有が、多くの種にわたるモデルの精度と一般化にどう影響するか?
  • RQ4大規模植物同定で最も良い MA-MRR を得る訓練構成(分類階層、器官、事前学習)は何か?

主な発見

チーム実行名アーキテクチャ事前学習訓練タクソノミー器官MA-MRR
MingleXuRun8ViT-LSSL EVA IN21k -> STL IN21kTWSp.M0.67395
MingleXuRun9ViT-LSSL EVA IN21k -> STL IN21kTWSp.M0.66330
MingleXuRun10ViT-LSSL EVA IN21k -> STL IN21kTWSp.M0.65695
MingleXuRun5ViT-LSSL EVA IN21k -> STL IN21kTSp.M0.65035
MingleXuRun3ViT-LSSL EVA IN21kTSp.M0.64871
MingleXuRun6ViT-LSSL EVA IN21k -> STL IN21kT@7Sp.M0.64201
NeuonAIRun9Iv4, IRv2STL IN1kTWAllM0.61813
NeuonAIRun7Iv4, IRv2STL IN1kTW,TAllM0.61561
NeuonAIRun10IRv2STL IN1kTW,TAllM0.61406
MingleXuRun2ViT-LSSL EVA IN21k -> STL IN21kT@36Sp.M0.57514
NeuonAIRun5IRv2STL IN1kTWAllM0.55040
MingleXuRun4ViT-LSSL EVA IN21k -> STL IN21kT@50Sp.S0.54846
NeuonAIRun1IRv2STL IN1kTWAllM0.54242
NeuonAIRun2IRv2STL IN1kTWAllM0.46606
NeuonAIRun6IRv2STL IN1kTWAllM0.46476
NeuonAIRun8IRv2STL IN1kTWAllM0.45910
NeuonAIRun3IRv2STL IN1kTWAllM0.45242
NeuonAIRun4IRv2STL IN1kTWOAllS0.33926
MingleXuRun1ViT-LSSL EVA IN21k -> STL IN21kT@100Sp.M0.33239
BestRun2022ViT-LSSL MAE IN1kTSp.M0.64079
  • Vision Transformer モデルは自己教師あり学習(EVA/MXE アプローチ)で事前学習されると最高の MA-MRR を達成し、CNNベースの解決策を上回った。
  • 最良の EVA ベース手法(MingleXuRun8)は MA-MRR0.67395 を達成。
  • Web トレーニングセットの組み込みは、trusted データのみを使用した場合と比較して性能を大幅に向上させた(例:0.65035 から 0.67395 へ)。
  • 訓練から人口の少ない種を除外する(種アブレーション)は性能を低下させ、すべての種を含める重要性を示した。
  • 器官別モデルを組み合わせると、種カバー範囲の縮小により一般に性能が低下した。
  • CNNベースの手法は最大で 0.61813 MA-MRR に達し、依然として最高の EVA 結果を下回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。