[논문 리뷰] Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset
요지는 USIS10K를 소개하고 대규모 수중 중요한 인스턴스 세분화 데이터셋이며 USIS-SAM은 수중 적응형 ViT 인코더와 Salient Feature Prompter Generator를 갖춘 SAM 기반 모델로, 엔드-투-엔드 수중 중요한 인스턴스 세분화를 수행합니다.
With the breakthrough of large models, Segment Anything Model (SAM) and its extensions have been attempted to apply in diverse tasks of computer vision. Underwater salient instance segmentation is a foundational and vital step for various underwater vision tasks, which often suffer from low segmentation accuracy due to the complex underwater circumstances and the adaptive ability of models. Moreover, the lack of large-scale datasets with pixel-level salient instance annotations has impeded the development of machine learning techniques in this field. To address these issues, we construct the first large-scale underwater salient instance segmentation dataset (USIS10K), which contains 10,632 underwater images with pixel-level annotations in 7 categories from various underwater scenes. Then, we propose an Underwater Salient Instance Segmentation architecture based on Segment Anything Model (USIS-SAM) specifically for the underwater domain. We devise an Underwater Adaptive Visual Transformer (UA-ViT) encoder to incorporate underwater domain visual prompts into the segmentation network. We further design an out-of-the-box underwater Salient Feature Prompter Generator (SFPG) to automatically generate salient prompters instead of explicitly providing foreground points or boxes as prompts in SAM. Comprehensive experimental results show that our USIS-SAM method can achieve superior performance on USIS10K datasets compared to the state-of-the-art methods. Datasets and codes are released on https://github.com/LiamLian0727/USIS10K.
연구 동기 및 목표
- 다중 범주에 걸친 픽셀 수준 주석을 포함한 대규모 수중 중요한 인스턴스 세분화 데이터셋을 구축한다.
- 도전적인 해양 환경에서 세분화 정확도를 향상시키기 위해 Segment Anything Model을 수중 도메인에 적응시킨다.
- 수동 프롬프트 없이 엔드-투-엔드 SAM 분할을 가능하게 하는 자동 주목 프롬프트를 개발한다.
- 제안된 USIS-SAM의 효과와 일반화를 USIS10K에서 시연하고 최첨단 방법과 비교한다.
제안 방법
- USIS10K 생성: 7개 카테고리에 걸친 픽셀 수준 마스크를 포함한 10,632개의 수중 이미지를 생성하고; 주석에는 카테고리 라벨, 마스크, 그리고 바운딩 박스가 포함된다.
- USIS-SAM 제안: 수중 장면에 맞춘 SAM 기반 아키텍처.
- UA-ViT 도입: 수중 도메인 지식을 주입하기 위해 PEFT로 SAM 인코더 블록을 미세조정하는 이미지 어텐션 및 채널의 한 쌍의 어댑터.
- SFPG 개발: 다중 스케일 UA-ViT 특징을 융합하여 SAM에 대한 프롬프트를 자동으로 생성하는 Salient Feature Prompt Generator.
- 다중 스케일 특징 융합(SFFM) 및 다중 스케일 디컨볼루션을 도입하여 주목 신호를 SAM 디코더에 맞춘다.
- Mask RCNN에서 영감을 받은 목적을 따라 RPN 로컬라이제이션, 분류, 회귀 및 세분화 손실을 결합한 손실로 최적화한다.
실험 결과
연구 질문
- RQ1다중 카테고리에 걸친 픽셀 수준 주석을 갖춘 대규모 수중 중요한 인스턴스 세분화 데이터셋(USIS10K)을 구축할 수 있는가?
- RQ2수중 특화 어댑터와 자동 주목 프롬프터로 보강된 SAM이 수중 SIS 성능을 우수하게 달성하는가?
- RQ3수중 도메인 적응(UA-ViT 및 SFPG)이 수중 장면의 세분화 정확도와 강건성에 어떤 영향을 미치는가?
- RQ4제안된 USIS-SAM이 USIS10K에 과적합 없이 육상 SIS 데이터셋(SIS10K)으로 일반화할 수 있는가?
주요 결과
- USIS-SAM은 클래스 비의존적 및 다중 클래스 중요한 인스턴스 세분화 모두에서 USIS10K에서 최첨단 방법과 비교하여 우수한 성능을 달성한다.
- Ablation에서 UA-ViT가 AP를 1.6포인트 향상시키고, SFPG가 대안들보다 의미 있는 이점을 제공한다.
- USIS10K은 7개 카테고리의 10,632장의 이미지를 포함하는 최초의 대규모 수중 SIS 데이터셋이며 클래스 비의존적 및 다중 클래스 라벨을 모두 포함한다.
- SIS10K에서 USIS-SAM은 일반화에 경쟁력을 보이며 프롬프트 학습 접근법이 육상 데이터셋으로 전이될 수 있음을 시사하지만 AP75는 약간 다를 수 있다.
- 정성적 결과는 USIS-SAM을 사용할 때 수중 장면에서 더 정확하고 완전한 주목 마스크를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.