QUICK REVIEW

[논문 리뷰] SAM 2: Segment Anything in Images and Videos

Nikhila Ravi, Valentin Gabeur|arXiv (Cornell University)|2024. 08. 01.

Generative Adversarial Networks and Image Synthesis인용 수 212

한 줄 요약

SAM 2는 스트리밍 메모리를 갖춘 비디오용 Segment Anything Model을 확장하여 SA-V 데이터셋을 구축하고 더 적은 사용자 상호작용으로 더 높은 정확도와 SAM과 비교했을 때 더 빠른 이미지 분할을 달성합니다.

ABSTRACT

We present Segment Anything Model 2 (SAM 2), a foundation model towards solving promptable visual segmentation in images and videos. We build a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. Our model is a simple transformer architecture with streaming memory for real-time video processing. SAM 2 trained on our data provides strong performance across a wide range of tasks. In video segmentation, we observe better accuracy, using 3x fewer interactions than prior approaches. In image segmentation, our model is more accurate and 6x faster than the Segment Anything Model (SAM). We believe that our data, model, and insights will serve as a significant milestone for video segmentation and related perception tasks. We are releasing our main model, dataset, as well as code for model training and our demo.

연구 동기 및 목표

이미지와 비디오 모두에 대한 보편적인 프롬프트 가능 시각 분할 시스템의 동기를 부여합니다.
최소한의 시맨틱 제약으로 크고 다양한 비디오 분할 데이터셋을 수집하기 위한 데이터 엔진을 개발합니다.
실시간 분할을 위해 스트리밍 방식으로 비디오 프레임을 처리하는 메모리 보강 트랜스포머 모델을 제안합니다.
비디오 및 이미지 작업 전반에서 SAM 2가 더 적은 사용자 상호작용으로 더 나은 정확도를 달성함을 입증합니다.
비디오 분할 및 관련 지각 작업의 연구를 가속하기 위해 데이터셋, 모델 및 대화형 데모를 공개합니다.

제안 방법

프롬프트를 비디오의 임의 프레임에서 받아 대상 객체를 정의하고 비디오 전역으로 마스크렛을 확산시키는 프롬프트 가능 시각 분할 작업(PVS)을 도입합니다.
과거 예측과 프롬프트를 조건화하기 위해 메모리 뱅크가 저장된 메모리 보강 스트리밍 트랜스포머 아키텍처를 사용합니다.
과거 프레임 및 객체 포인터에 조건화를 가하기 위한 메모리 인코더와 메모리 어텐션을 활용합니다.
SAM에서 영감을 받은 프롬프트 인코더와 마스크 디코더를 채택하되 모호한 프롬프트가 존재할 때 다중 마스크를 출력할 수 있습니다.
정답 마스크렛과 보정 프롬프트로 대화형 프롬팅을 시뮬레이션하며 이미지 및 비디오 데이터에 대해 SAM 2를 공동으로 학습합니다.
주석 자동화를 가속하고 마스크렛 다양화를 촉진하기 위해 SAM 2를 루프에 점진적으로 통합하는 다단계 데이터 엔진을 통해 SA-V 데이터셋을 구축합니다.

실험 결과

연구 질문

RQ1하나의 모델이 이미지와 비디오 모두에서 프롬프트 가능 분할을 수행할 수 있는가?
RQ2스트리밍 메모리 도입이 더 적은 사용자 상호작용으로 비디오 분할 정확도를 향상시키는가?
RQ3크고 다양한 비디오 분할 데이터셋(SA-V)이 비디오 및 이미지 벤치마크에서 제로샷 성능 향상을 가능하게 하는가?
RQ4인터랙티브 설정에서 SAM 2가 최첨단 비디오 객체 분할 기준선과 어떻게 비교되는가?
RQ5다양한 인구 통계 및 다양한 비디오 도메인에 걸친 SAM 2의 공정성 및 일반화 특성은 무엇인가?

주요 결과

SAM 2는 이전 방법보다 세 배 적은 상호작용으로 더 나은 비디오 분할 정확도를 제공합니다.
SAM 2는 인터랙티브 및 준지도 설정에서 17개 데이터셋에 걸쳐 이전의 비디오 객체 분할 기준선(SAM+XMem++, SAM+Cutie)을 능가합니다.
SA-V 데이터셋은 50.9K개의 비디오와 35.5M개의 마스크(642.6K 마스클렛)를 포함하여 기존 VOS 데이터셋보다 53배 더 많은 마스크를 제공합니다.
SAM 2는 또한 이미지 분할 정확도를 향상시키며 표준 이미지 벤치마크에서 SAM보다 약 6배 빠릅니다.
평가 프롬프트 하에서 성별/연령 그룹 간 비디오 분할의 실질적인 공정성 차이를 관찰하지 못했습니다.
SA-V 및 단계적 데이터 확장을 통한 학습은 제로샷 벤치마크(SA-V val 및 9개의 제로샷 데이터셋)에서 일관된 이점을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.