QUICK REVIEW

[논문 리뷰] Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks

Tianhe Ren, Shilong Liu|arXiv (Cornell University)|2024. 01. 25.

Multimodal Machine Learning Applications인용 수 88

한 줄 요약

본 논문은 Segment Anything (SAM)을 소개하며, SA-1B (1B masks over 11M images)에서 학습된 프롬프트 가능 분절 모델로, 강력한 제로샷 성능을 달성하고 다양한 작업에서 대화형, 실시간 마스크 생성을 지원합니다.

ABSTRACT

We introduce Grounded SAM, which uses Grounding DINO as an open-set object detector to combine with the segment anything model (SAM). This integration enables the detection and segmentation of any regions based on arbitrary text inputs and opens a door to connecting various vision models. As shown in Fig.1, a wide range of vision tasks can be achieved by using the versatile Grounded SAM pipeline. For example, an automatic annotation pipeline based solely on input images can be realized by incorporating models such as BLIP and Recognize Anything. Additionally, incorporating Stable-Diffusion allows for controllable image editing, while the integration of OSX facilitates promptable 3D human motion analysis. Grounded SAM also shows superior performance on open-vocabulary benchmarks, achieving 48.7 mean AP on SegInW (Segmentation in the wild) zero-shot benchmark with the combination of Grounding DINO-Base and SAM-Huge models.

연구 동기 및 목표

세분화 작업 전반에서 제로샷 일반화를 가능하게 하는 프롬프트 가능 분절 태스크를 정의한다.
다양한 프롬프트와 실시간 마스크 생성을 지원하는 가볍고도 유연한 모델(SAM)을 개발한다.
자동으로 방대하고 다양한 분절 데이터셋(SA-1B)을 구축하는 데이터 엔진을 만든다.
다양한 다운스트림 작업과 분포에 걸친 SAM의 제로샷 전달 능력을 평가한다.
데이터 및 모델 성능에서 책임 있는 AI 고려사항과 편향 문제를 다룬다.

제안 방법

유효한 마스크가 주어진 어떤 프롬프트에 대해서도 반환되는 프롬프트 가능 분절 태스크를 제안하고, 프롬핑을 통한 사전학습 및 다운스트림 사용을 가능하게 한다.
사전 학습된 이미지 인코더, 유연한 프롬프트 인코더, 빠른 마스크 디코더의 세 가지 구성요소로 SAM을 설계한다.
프롬프트당 다수의 마스크와 연결된 신뢰도 점수를 허용하여 SAM을 애매모호성 인식하도록 만든다.
상호작용 사용을 반영하기 위한 시뮬레이션 프롬프트의 라운드와 함께 focal 손실과 dice 손실을 결합한 손실을 사용하여 희소 프롬프트와 밀도 프롬프트의 혼합으로 SAM을 학습시킨다.
도우미-수동, 반자동, 완전 자동 단계로 구성된 데이터 엔진을 구축하여 모델 루프 방식으로 마스크를 수집한다.
최종적이고 애매모호성 인식 SAM을 11M 이미지에 걸친 32x32 프롬프트 그리드에 적용한 후, 마스크 정제 단계에 의해 SA-1B를 자동으로 생성한다.

실험 결과

연구 질문

RQ1분절에서 제로샷 일반화를 가능하게 하는 작업은 무엇인가?
RQ2실시간 성능과 애매모호성 처리를 지원하는 프롬프트 가능 분절에 적합한 모델 아키텍처는 무엇인가?
RQ3강력한 프롬프트 가능 분절 모델을 학습시키기에 필요한 데이터 규모와 다양성은 어느 수준인가?
RQ4프롬프트를 통한 다운스트림 작업으로 프롬프트 가능 분절 모델이 효과적으로 전달될 수 있는가?
RQ5제로샷 설정에서 다양한 데이터셋과 분포에 걸친 SAM의 성능은 어떤가?

주요 결과

SAM은 단일 전경 포인트에서 고품질 마스크를 달성하며, 종종 실제 정답 성능에 근접하다.
SAM은 23개의 분절 데이터셋에서 강력한 제로샷 전달을 보여주며, 종종 전문 베이스라인을 능가하거나 일치한다.
SA-1B 데이터셋은 11M 이미지에 대해 1.1B개 이상의 마스크를 담고 있으며, 규모와 다양성 면에서 이전 데이터셋을 크게 상회한다.
데이터 엔진과 완전 자동 단계는 샘플에서 전문 주석과의 높은 IoU를 통해 품질을 타협하지 않으면서 확장 가능한 마스크 생성을 가능하게 한다.
애매모호성 인식 프롬프팅은 신뢰도 점수를 가진 다수의 유효한 마스크를 생성하여 애매한 프롬프트의 처리를 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.