Skip to main content
QUICK REVIEW

[论文解读] A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset

Zahra Gharaee, ZeMing Gong|arXiv (Cornell University)|Jul 19, 2023
Species Distribution and Climate Change被引用 9
一句话总结

论文介绍了 BIOSCAN-Insect 数据集,该数据集是一个经过精心整理的百万图像集合,具有专家级分类标签和相关基因条码,并给出用于基于图像的分类任务的基线分类器分析。

ABSTRACT

In an effort to catalog insect biodiversity, we propose a new large dataset of hand-labelled insect images, the BIOSCAN-Insect Dataset. Each record is taxonomically classified by an expert, and also has associated genetic information including raw nucleotide barcode sequences and assigned barcode index numbers, which are genetically-based proxies for species classification. This paper presents a curated million-image dataset, primarily to train computer-vision models capable of providing image-based taxonomic assessment, however, the dataset also presents compelling characteristics, the study of which would be of interest to the broader machine learning community. Driven by the biological nature inherent to the dataset, a characteristic long-tailed class-imbalance distribution is exhibited. Furthermore, taxonomic labelling is a hierarchical classification scheme, presenting a highly fine-grained classification problem at lower levels. Beyond spurring interest in biodiversity research within the machine learning community, progress on creating an image-based taxonomic classifier will also further the ultimate goal of all BIOSCAN research: to lay the foundation for a comprehensive survey of global biodiversity. This paper introduces the dataset and explores the classification task through the implementation and analysis of a baseline classifier.

研究动机与目标

  • 通过一个大型、人工标注的昆虫图像数据集,推动并实现全球生物多样性评估。
  • 提供分层次、细粒度的分类标签,以反映现实世界生物多样性的复杂性。
  • 将遗传信息(原始核苷酸条码和条码索引号)作为辅助数据纳入分类任务。
  • 展示基于图像的分类在支持全球生物多样性调查方面的可行性。

提出的方法

  • 组装并整理一个具有专家分类的百万图像昆虫数据集。
  • 为每条记录附上相关的遗传信息,包括原始核苷酸条码序列和条码索引号。
  • 突出生物数据集固有的长尾分布特征。
  • 表征用于分类任务的分层、细粒度分类挑战。
  • 在数据集上实现并分析一个基线的基于图像的分类器。

实验结果

研究问题

  • RQ1基于图像的方法是否能够在分层、细粒度的昆虫分类体系中实现分类?
  • RQ2长尾分布如何影响基于图像的生物多样性分类性能?
  • RQ3随附的遗传条码信息在支持基于图像的分类中起到何种作用?
  • RQ4是否存在一个基线分类器,能够为使用 BIOSCAN 数据进行全球生物多样性调查提供有用的起点?

主要发现

  • BIOSCAN-Insect 数据集被提出作为用于分类评估的经过精心整理的百万图像资源。
  • 该数据集呈现出典型生物数据的长尾分布特征。
  • 在低层级具有分层、高度细粒度的分类标签。
  • 在数据集上实现并分析了一个基线的基于图像的分类器,为未来工作确立起点。
  • 本研究强调该数据集在支持全球生物多样性调查方面的潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。