[論文レビュー] Overview of ExpertLifeCLEF 2018: how far automated identification systems are from the best experts?
LifeCLEF 2018 ExpertCLEFは自動植物識別システムを最高の人間専門家と比較する。最良のAI手法は最高の専門家には及ばないが近づき、上位の結果は約0.84〜0.87、専門家は最大で0.967まで。
Automated identification of plants and animals has improved considerably in the last few years, in particular thanks to the recent advances in deep learning. The next big question is how far such automated systems are from the human expertise. Indeed, even the best experts are sometimes confused and/or disagree between each others when validating visual or audio observations of living organism. A picture actually contains only a partial information that is usually not sufficient to determine the right species with certainty. Quantifying this uncertainty and comparing it to the performance of automated systems is of high interest for both computer scientists and expert naturalists. The LifeCLEF 2018 ExpertCLEF challenge presented in this paper was designed to allow this comparison between human experts and automated systems. In total, 19 deep-learning systems implemented by 4 different research teams were evaluated with regard to 9 expert botanists of the French flora. The main outcome of this work is that the performance of state-of-the-art deep learning models is now close to the most advanced human expertise. This paper presents more precisely the resources and assessments of the challenge, summarizes the approaches and systems employed by the participating research groups, and provides an analysis of the main outcomes.
研究の動機と目的
- 最先端の自動植物識別がトップ人間専門家にどれだけ近いかを定量化する。
- 信頼データとノイズデータを含む現実的で多源の訓練・テストデータセットを作成する。
- 共通タスク上で複数の深層学習ベースの識別システムを評価する。
- 機械が人間の専門家を上回る、または下回るケースを分析する。
提案手法
- 4チームからの19の深層学習システムを用いた ExpertCLEF 2018 タスクを使用する。
- 信頼データ(EoL)とノイズのウェブデータで訓練し、専門家が検証した西欧植物観測データで評価する。
- 自動実行の Top-1 精度を評価し、専門家の性能と比較する。
- データ拡張とテスト時の平均化を用いたCNNアンサンブルを採用する。
- 画像ベースの識別の本質的限界を理解するための失敗ケースを分析する。
実験結果
リサーチクエスチョン
- RQ1現場に近い画像で、深層学習による植物識別は専門家レベルの精度にどれほど近づけるか?
- RQ2訓練データの品質、アンサンブル、データ拡張など、どの要因が専門家と比べた機械の性能に最も影響するか?
- RQ3どの観察タイプや分類群が機械と人間の専門家の性能を最も区別するか?
- RQ4自動システムは特定の難しいケースで専門家を上回ることができるか、そしてその理由は?
主な発見
| Run | Top1 (expert) | Top1 (whole) |
|---|---|---|
| CMP Run 4 | 0.840 | 0.867 |
| CMP Run 3 | 0.827 | 0.884 |
| MfN Run 2 | 0.787 | 0.848 |
| MfN Run 4 | 0.773 | 0.875 |
| CMP Run 2 | 0.773 | 0.856 |
| MfN Run 3 | 0.773 | 0.847 |
| CMP Run 5 | 0.773 | 0.832 |
| CMP Run 1 | 0.760 | 0.868 |
| MfN Run 1 | 0.760 | 0.826 |
| TUC MI Run 5 | 0.640 | 0.770 |
| TUC MI Run 1 | 0.640 | 0.755 |
| TUC MI Run 2 | 0.640 | 0.755 |
| SabanciU-GTU Run 5 | 0.613 | 0.744 |
| SabanciU-GTU Run 3 | 0.613 | 0.743 |
| TUC MI Run 3 | 0.613 | 0.718 |
| SabanciU-GTU Run 1 | 0.600 | 0.741 |
| SabanciU-GTU Run 4 | 0.587 | 0.721 |
| TUC MI Run 4 | 0.587 | 0.698 |
| SabanciU-GTU Run 2 | 0.320 | 0.418 |
- 最高の自動化システムは、専門家比較で 0.84 の Top-1、全セットでは 0.867 を達成。
- 最高の専門家の Top-1 精度は 0.613 から 0.960 の範囲で、中央値は 0.800。
- 自動システムは、特定の観察で専門家より優れていることがあった(例: CMP Run 4 がいくつかのケースで最良の専門家より上)。
- 自動化の性能は専門家レベルに近づいたが、トップの専門家を超えなかった(結論として最高の専門家は 0.967)。
- 性能向上は、信頼データとノイズデータの両方での訓練と、データ拡張付きのCNNアンサンブルの使用に関連していた。
- いくつかの自動実行は大半の観察を正しく識別したが、種の類似性や画像情報の制限のため、少数が難しかった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。