QUICK REVIEW

[論文レビュー] Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset

Shijie Lian, Ziyi Zhang|arXiv (Cornell University)|Jun 10, 2024

Underwater Acoustics Research被引用数 5

ひとこと要約

USIS10Kを紹介する。大規模な水中顕著インスタンスセグメンテーションデータセットであり、USIS-SAMはUnderwater Adaptive ViT encoderとSalient Feature Prompter Generatorを備えたSAMベースのモデルで、水中顕著インスタンスのエンドツーエンドセグメンテーションを実現する。

ABSTRACT

With the breakthrough of large models, Segment Anything Model (SAM) and its extensions have been attempted to apply in diverse tasks of computer vision. Underwater salient instance segmentation is a foundational and vital step for various underwater vision tasks, which often suffer from low segmentation accuracy due to the complex underwater circumstances and the adaptive ability of models. Moreover, the lack of large-scale datasets with pixel-level salient instance annotations has impeded the development of machine learning techniques in this field. To address these issues, we construct the first large-scale underwater salient instance segmentation dataset (USIS10K), which contains 10,632 underwater images with pixel-level annotations in 7 categories from various underwater scenes. Then, we propose an Underwater Salient Instance Segmentation architecture based on Segment Anything Model (USIS-SAM) specifically for the underwater domain. We devise an Underwater Adaptive Visual Transformer (UA-ViT) encoder to incorporate underwater domain visual prompts into the segmentation network. We further design an out-of-the-box underwater Salient Feature Prompter Generator (SFPG) to automatically generate salient prompters instead of explicitly providing foreground points or boxes as prompts in SAM. Comprehensive experimental results show that our USIS-SAM method can achieve superior performance on USIS10K datasets compared to the state-of-the-art methods. Datasets and codes are released on https://github.com/LiamLian0727/USIS10K.

研究の動機と目的

複数カテゴリにわたるピクセルレベルの注釈を持つ大規模な水中顕著インスタンスセグメンテーションデータセットを確立する。
Segment Anything Modelを水中ドメインに適応させ、困難な海洋環境でのセグメンテーション精度を向上させる。
自動的な顕性プロンプト生成を開発し、手動プロンプトなしでエンドツーエンドのSAMセグメンテーションを実現する。
提案手法USIS-SAMの有効性と一般化性能をUSIS10Kで示し、最先端手法と比較する。

提案手法

USIS10Kを作成する。7カテゴリにわたるピクセルレベルのマスクを持つ10,632枚の水中画像。注釈にはカテゴリラベル、マスク、および境界ボックスが含まれる。
USIS-SAMを提案する。水中シーンに特化したSAMベースのアーキテクチャ。
UA-ViTを導入する。画像注意とチャンネルのアダプタのペアを用い、PEFTを介してSAMエンコーダーブロックを微調整し水中ドメイン知識を注入する。
SFPGを開発する。マルチスケールUA-ViT特徴を統合してSAMの入力へプロンプトを生成する顕著な特徴プロンプト生成器（Salient Feature Prompt Generator）。
マルチスケール特徴融合（SFFM）とマルチスケールデコンボリューションを組み込み、顕性手掛かりをSAMデコーダーと整合させる。
Mask RCNNに着想を得た目的関数に従い、RPNの局所化、分類、回帰、セグメンテーション損失を組み合わせた損失で最適化する。

実験結果

リサーチクエスチョン

RQ1複数カテゴリにわたるピクセルレベルの注釈を持つ大規模な水中顕著インスタンスセグメンテーションデータセット（USIS10K）を構築できるか。
RQ2水中固有のアダプタと自動顕性プロンプターを組み合わせたとき、SAMは優れた水中 SIS性能を達成するか。
RQ3水中ドメイン適応（UA-ViTとSFPG）は水中シーンのセグメンテーション精度と頑健性にどのように影響するか。
RQ4提案手法USIS-SAMはUSIS10Kに過度に適合せず陸上のSISデータセット（例：SIS10K）へ一般化できるか。

主な発見

USIS-SAMはクラス非依存および多クラス顕著インスタンスセグメンテーションの両方で、最先端手法と比較してUSIS10K上で優れた性能を達成する。
アブレーションによりUA-ViTがAPを1.6ポイント向上させ、SFPGは代替手法より有意な向上をもたらすことが示される。
USIS10Kは7カテゴリにわたる10,632枚の画像を含む初の大規模水中SISデータセットであり、クラス非依存および多クラスラベルの両方を含む。
SIS10K上でUSIS-SAMは一般化性が競争力があり、プロンプト学習アプローチが陸上データセットに転移可能であることを示唆するが、AP75は若干異なる。
定性的な結果は、水中シーンにおいてUSIS-SAMを用いるとより正確で完全な顕著マスクを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。