QUICK REVIEW

[論文レビュー] Overview of PlantCLEF 2022: Image-based plant identification at global scale

Hervé Goëau, Pierre Bonnet|ArXiv.org|Sep 22, 2025

Smart Agriculture and AI被引用数 23

ひとこと要約

この論文は PlantCLEF 2023（LifeCLEF 2023 Plant Identification タスク）を概説し、CNNと Vision Transformer を用いた大規模な画像ベースの植物同定を分析し、SSL事前学習済み ViT の有用性と訓練におけるウェブデータの利点を強調する。参加ランの主な結果表も提示する。

ABSTRACT

It is estimated that there are more than 300,000 species of vascular plants in the world. Increasing our knowledge of these species is of paramount importance for the development of human civilization (agriculture, construction, pharmacopoeia, etc.), especially in the context of the biodiversity crisis. However, the burden of systematic plant identification by human experts strongly penalizes the aggregation of new data and knowledge. Since then, automatic identification has made considerable progress in recent years as highlighted during all previous editions of PlantCLEF. Deep learning techniques now seem mature enough to address the ultimate but realistic problem of global identification of plant biodiversity in spite of many problems that the data may present (a huge number of classes, very strongly unbalanced classes, partially erroneous identifications, duplications, variable visual quality, diversity of visual contents such as photos or herbarium sheets, etc). The PlantCLEF2022 challenge edition proposes to take a step in this direction by tackling a multi-image (and metadata) classification problem with a very large number of classes (80k plant species). This paper presents the resources and evaluations of the challenge, summarizes the approaches and systems employed by the participating research groups, and provides an analysis of key findings.

研究の動機と目的

生物多様性モニタリングを支援するための自動化されたグローバル規模の植物種識別の動機づけ。
評価に使用された2つの大規模な訓練データセット（trustedとweb）とテストセットの説明。
80,000種に対する参加手法、アーキテクチャ、訓練戦略の要約。
将来の大規模植物同定研究を導くための主要な発見の分析。

提案手法

データセットの構築の説明：GBIF由来の厳選画像とノイズのあるウェブ画像からなる、80k種にわたる合計400万枚の画像。
複数画像観測を用いた植物同定タスクを評価し、 MA-MRR を指標として用いる。
アーキテクチャの選択（CNN対 Vision Transformer）と事前学習（STL対 SSL、EVA、MAE）に焦点を当てた参加手法の調査。
事前に定義されたリーダーボードのランの結果を報告し、設定間で性能を比較。
Webデータ、臓器別サブモデル、事前学習戦略が MA-MRR に与える影響を分析。

実験結果

リサーチクエスチョン

RQ1大規模なマルチ画像訓練セットが植物種検索性能に与える影響は何か？
RQ2この大規模な植物同定タスクで、自己教師あり事前学習を用いたVision Transformerは、教師あり転移学習を用いたCNNより性能が良いか？
RQ3ノイズのあるウェブデータの含有が、多くの種にわたるモデルの精度と一般化にどう影響するか？
RQ4大規模植物同定で最も良い MA-MRR を得る訓練構成（分類階層、器官、事前学習）は何か？

主な発見

チーム実行名	アーキテクチャ	事前学習	訓練	タクソノミー	器官	MA-MRR
MingleXuRun8	ViT-L	SSL EVA IN21k -> STL IN21k	TW	Sp.	M	0.67395
MingleXuRun9	ViT-L	SSL EVA IN21k -> STL IN21k	TW	Sp.	M	0.66330
MingleXuRun10	ViT-L	SSL EVA IN21k -> STL IN21k	TW	Sp.	M	0.65695
MingleXuRun5	ViT-L	SSL EVA IN21k -> STL IN21k	T	Sp.	M	0.65035
MingleXuRun3	ViT-L	SSL EVA IN21k	T	Sp.	M	0.64871
MingleXuRun6	ViT-L	SSL EVA IN21k -> STL IN21k	T@7	Sp.	M	0.64201
NeuonAIRun9	Iv4, IRv2	STL IN1k	TW	All	M	0.61813
NeuonAIRun7	Iv4, IRv2	STL IN1k	TW,T	All	M	0.61561
NeuonAIRun10	IRv2	STL IN1k	TW,T	All	M	0.61406
MingleXuRun2	ViT-L	SSL EVA IN21k -> STL IN21k	T@36	Sp.	M	0.57514
NeuonAIRun5	IRv2	STL IN1k	TW	All	M	0.55040
MingleXuRun4	ViT-L	SSL EVA IN21k -> STL IN21k	T@50	Sp.	S	0.54846
NeuonAIRun1	IRv2	STL IN1k	TW	All	M	0.54242
NeuonAIRun2	IRv2	STL IN1k	TW	All	M	0.46606
NeuonAIRun6	IRv2	STL IN1k	TW	All	M	0.46476
NeuonAIRun8	IRv2	STL IN1k	TW	All	M	0.45910
NeuonAIRun3	IRv2	STL IN1k	TW	All	M	0.45242
NeuonAIRun4	IRv2	STL IN1k	TWO	All	S	0.33926
MingleXuRun1	ViT-L	SSL EVA IN21k -> STL IN21k	T@100	Sp.	M	0.33239
BestRun2022	ViT-L	SSL MAE IN1k	T	Sp.	M	0.64079

Vision Transformer モデルは自己教師あり学習（EVA/MXE アプローチ）で事前学習されると最高の MA-MRR を達成し、CNNベースの解決策を上回った。
最良の EVA ベース手法（MingleXuRun8）は MA-MRR0.67395 を達成。
Web トレーニングセットの組み込みは、trusted データのみを使用した場合と比較して性能を大幅に向上させた（例：0.65035 から 0.67395 へ）。
訓練から人口の少ない種を除外する（種アブレーション）は性能を低下させ、すべての種を含める重要性を示した。
器官別モデルを組み合わせると、種カバー範囲の縮小により一般に性能が低下した。
CNNベースの手法は最大で 0.61813 MA-MRR に達し、依然として最高の EVA 結果を下回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。