Skip to main content
QUICK REVIEW

[論文レビュー] BioCLIP: A Vision Foundation Model for the Tree of Life

Samuel Stevens, Jiaman Wu|arXiv (Cornell University)|Nov 30, 2023
Cell Image Analysis Techniques被引用数 9
ひとこと要約

本論文は、最大規模のML準備済み生物画像データセットである TreeOfLife-10M と、系統樹の階層構造を活用した CLIP 風の多模合対比学習により訓練されたビジョンファウンデーションモデル BioCLIP を紹介し、系統樹全体にわたるゼロショットおよび少数ショット分類を可能にします。

ABSTRACT

Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks and find that BioCLIP consistently and substantially outperforms existing baselines (by 16% to 17% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. https://imageomics.github.io/bioclip has models, data and code.

研究の動機と目的

  • 系統分類ラベルを持つ大規模で多様な生物画像データセットを作成し、ファウンデーションモデルの事前学習を支援する(TreeOfLife-10M)。
  • 系統構造を利用して unseen 種を一般化するビジョンファウンデーションモデル(BioCLIP)を開発する。
  • 多様な細分化生物分類タスクで強力なゼロショットおよび少数ショット性能を示す。
  • テキストの種類(分類名、科学名、一般名)がモデルの一般化に与える影響を調査する。
  • 学習された階層表現がlife の木と整合する intrinsic 分析を提供する。

提案手法

  • TreeOfLife-10M を iNat21、Bioscan-1M、Encyclopedia of Life の画像を標準化された分類階層と統合して作成する。
  • OpenAI CLIP の重みから初期化し、TreeOfLife-10M 上で CLIP の多模態対比目的で事前学習を継続する。
  • 分類ラベルを分類名(平坦化された階層)として表現し、CLIP フレームワークで画像とこれらの名前を一致させるようモデルを訓練する。
  • 推論時の柔軟性を高めるため、混在テキストタイプ(分類名、科学名、一般名)を用いた実験を行う。
  • 動物・植物・菌類の 10 の多様な細分化データセットと Rare Species テストセットを含むゼロショットおよび少数ショットの性能を評価する。
  • BioCLIP を LAION-400M で訓練された CLIP および OpenCLIP と比較し、データソースとテキストタイプ戦略を消去する。
BioCLIP: A Vision Foundation Model for the Tree of Life

実験結果

リサーチクエスチョン

  • RQ1TreeOfLife-10M で訓練されたビジョンファウンデーションモデルは、トレーニングデータに存在しない種(ゼロショット)に対して系統樹全体で一般化できるか。
  • RQ2分類ラベル空間に分類階層構造を CLIP ライク目的でエンコードすることが、特にデータ不足の領域で、細粒度の生物分類を改善するか。
  • RQ3訓練時に使用される異なるテキストタイプ(分類名、科学名、一般名)は、ゼロショットおよび少数ショットの一般化にどのように影響するか。
  • RQ4データの多様性(TreeOfLife-10M 対 iNat21)が下流の性能と unseen 種への一般化に及ぼす影響はどの程度か。
  • RQ5BioCLIP はlife の木を反映する階層表現を学習するか、そしてそれは intrinsic 分析でどのように現れるか。

主な発見

  • BioCLIP は 10 つの細粒度生物データセット全体でベースラインより一貫して優れており、ゼロショットで 17–20 ポイントの差を示す。
  • BioCLIP は 1-shot および 5-shot 設定で CLIP および OpenCLIP に対して顕著な改善を示す強力な少数ショット利得を達成する。
  • ゼロショット性能は特に unseen Rare Species に対して強く、トレーニングデータに含まれない taxa への良好な一般化を示す。
  • intrinsic 分析では BioCLIP が life の木と整合する階層的特徴構造を学習することが示され、一般化の改善を説明する。
  • 訓練で分類名を使用することは科学名のみを用いる場合よりゼロショット精度を著しく改善し、混合テキストタイプは推論時の柔軟性を高める。
  • TreeOfLife-10M の多様性(EOL を含む)は iNat21 のみを使用する場合と比べて性能を大きく向上させる。
(d) Onoclea sensibilis
(d) Onoclea sensibilis

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。