QUICK REVIEW

[논문 리뷰] Segment Anything

Alexander M. Kirillov, Eric Mintun|arXiv (Cornell University)|2023. 04. 05.

Advanced Neural Network Applications인용 수 519

한 줄 요약

본 논문은 Segment Anything Model (SAM)을 제시한다. 이는 SA-1B에서 학습된 프롬프트 가능한 분할 모델로, 1B-mask, 11M-image 데이터셋이며, 프롬프트와 모델-루프 데이터 엔진에서의 데이터 주석을 통해 태스크 간 제로샷 분할을 가능하게 한다.

ABSTRACT

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.

연구 동기 및 목표

프롬프트 가능한 분할 태스크를 정의하여 분할 태스크 전반에 걸친 제로샷 일반화를 가능하게 한다.
여러 개의 유효 마스크를 생성할 수 있도록 프롬프트를 가능하게 하는 경량의 실시간 SAM 아키텍처를 개발한다.
고품질 자동 마스크를 포함하여 지금까지 최대 규모의 분할 데이터셋인 SA-1B를 구축하기 위한 확장 가능한 데이터 엔진을 만든다.
제로샷 전이 능력을 입증하기 위해 다양한 다운스트림 태스크와 데이터세트에서 SAM을 평가한다.

제안 방법

임의의 프롬프트에 대해 유효 마스크가 생성되는 프롬프트 가능한 분할 태스크를 제안한다.
세 가지 구성요소로 SAM을 설계한다: 이미지 인코더(ViT 기반), 프롬프트 인코더(점, 박스, 텍스트 또는 마스크), 그리고 빠른 마스크 디코더.
프롲프트당 다수의 마스크와 신뢰도 점수를 출력하도록 SAM을 애매성 인식 가능하게 만든다.
모델-루프 라벨링이 포함된 SA-1B 마스크를 수집하기 위한 3단계 데이터 엔진(보조-수동, 반자동, 완전 자동)을 구축한다.
11M 이미지에 대해 1.1B 마스크를 완전 자동으로 생성하여 SA-1B를 구성한다.
SA-1B에서 SAM을 학습하고, 아모타이즈드 이미지 임베딩을 사용하여 브라우저에서 실시간 프롬프트(~50 ms)을 가능하게 한다.

실험 결과

연구 질문

RQ1세분할에서 제로샷 일반화를 가능하게 하는 태스크는 무엇인가?
RQ2실시간 마스크 생성을 지원하는 프롬프트 가능한 분할에 어떤 모델 아키텍처가 있는가?
RQ3프롬프트 가능한 분할 모델에 어떤 데이터가 작동하며 이를 대규모로 어떻게 수집할 수 있는가?

주요 결과

SAM은 23개 데이터셋에 걸쳐 에지 검출, 객체 제안 생성, 인스턴스 분할 및 텍스트-마스크 프롬프트에 대한 제로샷 전이를 달성한다.
SAM은 단일 전경 점으로도 고품질 마스크를 생성할 수 있으며, 종종 실제 값에 가까우며 인간 평가 품질이 기준선보다 높다.
SAM은 이미지 임베딩이 주어지면 약 50 ms 내에 마스크를 출력하여 대화형 프롬프트를 가능하게 한다.
SA-1B는 11M 이미지에서 1B개 이상의 마스크를 포함하며 데이터 엔진의 최종 단계에서 자동으로 생성되었고, 기존의 분할 데이터셋보다 크고 더 다양하다.
SA-1B의 마스크 품질은 높으며, 전문 편집과 짝지었을 때 500개의 이미지 샘플에서 94% IoU > 90%; 97% IoU > 75%.
데이터셋은 이전 데이터셋 대비 지리적 및 소득 구성의 폭넓은 개선을 보여주나, 아프리카 및 저소득 지역에서의 표현이 미비한 점이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.