Skip to main content
QUICK REVIEW

[논문 리뷰] Segment Anything

Alexander M. Kirillov, Eric Mintun|arXiv (Cornell University)|2023. 04. 05.
Advanced Neural Network Applications인용 수 519
한 줄 요약

본 논문은 Segment Anything Model (SAM)을 제시한다. 이는 SA-1B에서 학습된 프롬프트 가능한 분할 모델로, 1B-mask, 11M-image 데이터셋이며, 프롬프트와 모델-루프 데이터 엔진에서의 데이터 주석을 통해 태스크 간 제로샷 분할을 가능하게 한다.

ABSTRACT

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to be promptable, so it can transfer zero-shot to new image distributions and tasks. We evaluate its capabilities on numerous tasks and find that its zero-shot performance is impressive -- often competitive with or even superior to prior fully supervised results. We are releasing the Segment Anything Model (SAM) and corresponding dataset (SA-1B) of 1B masks and 11M images at https://segment-anything.com to foster research into foundation models for computer vision.

연구 동기 및 목표

  • 프롬프트 가능한 분할 태스크를 정의하여 분할 태스크 전반에 걸친 제로샷 일반화를 가능하게 한다.
  • 여러 개의 유효 마스크를 생성할 수 있도록 프롬프트를 가능하게 하는 경량의 실시간 SAM 아키텍처를 개발한다.
  • 고품질 자동 마스크를 포함하여 지금까지 최대 규모의 분할 데이터셋인 SA-1B를 구축하기 위한 확장 가능한 데이터 엔진을 만든다.
  • 제로샷 전이 능력을 입증하기 위해 다양한 다운스트림 태스크와 데이터세트에서 SAM을 평가한다.

제안 방법

  • 임의의 프롬프트에 대해 유효 마스크가 생성되는 프롬프트 가능한 분할 태스크를 제안한다.
  • 세 가지 구성요소로 SAM을 설계한다: 이미지 인코더(ViT 기반), 프롬프트 인코더(점, 박스, 텍스트 또는 마스크), 그리고 빠른 마스크 디코더.
  • 프롲프트당 다수의 마스크와 신뢰도 점수를 출력하도록 SAM을 애매성 인식 가능하게 만든다.
  • 모델-루프 라벨링이 포함된 SA-1B 마스크를 수집하기 위한 3단계 데이터 엔진(보조-수동, 반자동, 완전 자동)을 구축한다.
  • 11M 이미지에 대해 1.1B 마스크를 완전 자동으로 생성하여 SA-1B를 구성한다.
  • SA-1B에서 SAM을 학습하고, 아모타이즈드 이미지 임베딩을 사용하여 브라우저에서 실시간 프롬프트(~50 ms)을 가능하게 한다.

실험 결과

연구 질문

  • RQ1세분할에서 제로샷 일반화를 가능하게 하는 태스크는 무엇인가?
  • RQ2실시간 마스크 생성을 지원하는 프롬프트 가능한 분할에 어떤 모델 아키텍처가 있는가?
  • RQ3프롬프트 가능한 분할 모델에 어떤 데이터가 작동하며 이를 대규모로 어떻게 수집할 수 있는가?

주요 결과

  • SAM은 23개 데이터셋에 걸쳐 에지 검출, 객체 제안 생성, 인스턴스 분할 및 텍스트-마스크 프롬프트에 대한 제로샷 전이를 달성한다.
  • SAM은 단일 전경 점으로도 고품질 마스크를 생성할 수 있으며, 종종 실제 값에 가까우며 인간 평가 품질이 기준선보다 높다.
  • SAM은 이미지 임베딩이 주어지면 약 50 ms 내에 마스크를 출력하여 대화형 프롬프트를 가능하게 한다.
  • SA-1B는 11M 이미지에서 1B개 이상의 마스크를 포함하며 데이터 엔진의 최종 단계에서 자동으로 생성되었고, 기존의 분할 데이터셋보다 크고 더 다양하다.
  • SA-1B의 마스크 품질은 높으며, 전문 편집과 짝지었을 때 500개의 이미지 샘플에서 94% IoU > 90%; 97% IoU > 75%.
  • 데이터셋은 이전 데이터셋 대비 지리적 및 소득 구성의 폭넓은 개선을 보여주나, 아프리카 및 저소득 지역에서의 표현이 미비한 점이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.