Skip to main content
QUICK REVIEW

[論文レビュー] MATANet: A Multi-context Attention and Taxonomy-Aware Network for Fine-Grained Underwater Recognition of Marine Species

Donghwan Lee, Byeongjin Kim|arXiv (Cornell University)|Jan 7, 2026
Advanced Neural Network Applications被引用数 0
ひとこと要約

MATANetは、多-context環境注意と分類学的階層学習を統合し、水中およびリモートセンシングデータセット全体で最先端の細分種認識を実現します。

ABSTRACT

Fine-grained classification of marine animals supports ecology, biodiversity and habitat conservation, and evidence-based policy-making. However, existing methods often overlook contextual interactions from the surrounding environment and insufficiently incorporate the hierarchical structure of marine biological taxonomy. To address these challenges, we propose MATANet (Multi-context Attention and Taxonomy-Aware Network), a novel model designed for fine-grained marine species classification. MATANet mimics expert strategies by using taxonomy and environmental context to interpret ambiguous features of underwater animals. It consists of two key components: a Multi-Context Environmental Attention Module (MCEAM), which learns relationships between regions of interest (ROIs) and their surrounding environments, and a Hierarchical Separation-Induced Learning Module (HSLM), which encodes taxonomic hierarchy into the feature space. MATANet combines instance and environmental features with taxonomic structure to enhance fine-grained classification. Experiments on the FathomNet2025, FAIR1M, and LifeCLEF2015-Fish datasets demonstrate state-of-the-art performance. The source code is available at: https://github.com/dhlee-work/fathomnet-cvpr2025-ssl

研究の動機と目的

  • 環境コンテキストと分類学を活用して認識精度を向上させる細粒度の海洋種分類を動機づける。
  • コンテキスト注意と階層的学習を組み合わせた二成分アーキテクチャを導入する。
  • 分類学階層と生息地コンテキストを組み込みつつ意味的一貫性を実現する。
  • FathomNet2025、FAIR1M、LifeCLEF2015-Fishを含む複数データセットで最先端の性能を示す。

提案手法

  • MATANetを二つの主なモジュールで提案する:(i) Multi-Context Environmental Attention Module (MCEAM)がROI埋め込みと多尺度環境領域埋め込みとのクロス注意を実行する;(ii) Hierarchical Separation-Induced Learning Module (HSLM)がレベルごとの補助分類器を適用して分類特徴空間に分類学階層を埋め込む。
  • ROIとコンテキスト領域をVision Transformer (ViT)バックボーンでエンコードし、結合と射影層を介して統一埋め込みzを得る。
  • ROIをクエリ、コンテキスト領域をキー/値としてクロス注意を適用し、ROI-コンテキスト相互作用を捉える。
  • レベルごとの補助分類器を介して階層的監督を imposingし、最終分類損失と組み合わせたクロスエントロピー損失を計算する。
  • 訓練にはFathomNet APIの実データ分類ラベルを使用し、下位レベルラベルが欠落する場合は上位分類レベルへ補間する。
  • L_total = L_cls + L_hierを用いたエンドツーエンド訓練で、物体レベルの精度と分類学的一貫性をバランスさせる。
Figure 1: Different visual contexts for marine species recognition. The ROI image shows a sea anemone (family: Hormathiidae). Its taxonomic identity becomes more evident when the surrounding organisms and habitat features visible in the context and full-context images are taken into account.
Figure 1: Different visual contexts for marine species recognition. The ROI image shows a sea anemone (family: Hormathiidae). Its taxonomic identity becomes more evident when the surrounding organisms and habitat features visible in the context and full-context images are taken into account.

実験結果

リサーチクエスチョン

  • RQ1多尺度の生態系コンテクストを取り入れることは、ROI中心のアプローチを超える細粒度の海洋種認識を改善するか。
  • RQ2レベルごとの補助分類器を介して階層的分類学構造をエンコードすることで意味的一貫性と分類精度が向上するか。
  • RQ3コンテキストスケールと階層的監督が埋め込み空間の構造と最終性能に与える影響はどのようか。
  • RQ4MATANetは水中データセットとリモートセンシングデータセットの両方で、細かな分類学ラベルを持つデータに対してどの程度一般化するか。

主な発見

  • MATANetはFathomNet2025、FAIR1M、LifeCLEF2015-Fishデータセットで最先端の性能を達成した。
  • アブレーションにより、マルチスケールコンテキスト(3×、5×、全体)を用いると単一スケールより性能が向上する。
  • Hierarchical Separation-Induced Learning (HSLM)を導入すると階層的一貫性が大幅に改善され、Hierarchical Distance (HD)が減少する。
  • より大きなViTバックボーン(例:ViT-L)とMCEAM-HSLM構成が最高の結果を生み、ROIのみのベースラインより顕著な利得を得る。
  • 視覚的分析(t-SNE)では、HSLMが分類学的に整合性のある埋め込みを生み出し、クラスと分類学でクラスタリングされる。
  • クロス注意の可視化は、habitatに関連する特徴に焦点を当てたROI-コンテキスト相互作用を意味のある形で示す。
Figure 2: Overview of MATANet. The model processes ROI and multi-scale contextual images using ViT embeddings. The Multi-Context Environmental Attention Module (MCEAM) applies cross-attention between the ROI and contextual regions to integrate their features. The Hierarchical Separation-Induced Lear
Figure 2: Overview of MATANet. The model processes ROI and multi-scale contextual images using ViT embeddings. The Multi-Context Environmental Attention Module (MCEAM) applies cross-attention between the ROI and contextual regions to integrate their features. The Hierarchical Separation-Induced Lear

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。