[논문 리뷰] EmbedMask: Embedding Coupling for One-stage Instance Segmentation
EmbedMask은 제안 임베딩(proposal embeddings)과 픽셀 임베딩(pixel embeddings)을 한 단계 프레임워크에서 결합하여 RoI 풀링 없이 고해상도 인스턴스 분할을 수행하고, Mask R-CNN과 경쟁력 있는 성능을 보이면서도 더 빠릅니다.
Current instance segmentation methods can be categorized into segmentation-based methods that segment first then do clustering, and proposal-based methods that detect first then predict masks for each instance proposal using repooling. In this work, we propose a one-stage method, named EmbedMask, that unifies both methods by taking advantages of them. Like proposal-based methods, EmbedMask builds on top of detection models making it strong in detection capability. Meanwhile, EmbedMask applies extra embedding modules to generate embeddings for pixels and proposals, where pixel embeddings are guided by proposal embeddings if they belong to the same instance. Through this embedding coupling process, pixels are assigned to the mask of the proposal if their embeddings are similar. The pixel-level clustering enables EmbedMask to generate high-resolution masks without missing details from repooling, and the existence of proposal embedding simplifies and strengthens the clustering procedure to achieve high speed with higher performance than segmentation-based methods. Without any bells and whistles, EmbedMask achieves comparable performance as Mask R-CNN, which is the representative two-stage method, and can produce more detailed masks at a higher speed. Code is available at github.com/yinghdb/EmbedMask.
연구 동기 및 목표
- 한 단계 인스턴스 분할과 두 단계 간의 차이를 줄이기 위해 탐지의 강점과 픽셀 수준 임베딩을 클러스터링에 활용합니다.
- RoI 풀링 없이 임베딩 기반 클러스터링을 가능하게 하기 위해 픽셀 임베딩과 제안 임베딩을 도입합니다.
- 다중 스케일 객체에 맞춰 클러스터링을 조정하기 위해 per-instance 마진(Sigma)을 학습합니다.
- 마스크 관련 감독 신호를 포함하는 멀티 태스크 손실로 엔드 투 엔드 학습합니다.
- 일단의 한 단계 접근이 개선된 마스크 디테일과 속도로 COCO 성능을 경쟁력 있게 달성할 수 있음을 시연합니다.
제안 방법
- 주로 FCOS를 한 단계 탐지 백본으로 사용하는 것에 기반합니다.
- 가장 큰 FPN 피처 맵에서 per-pixel 임베딩(p)을 예측하는 Pixel Head를 추가합니다.
- 프로포절별 임베딩(q)과 프로포절 마진(sigma)을 예측하는 Proposal Head를 추가합니다.
- 픽셀 임베딩이 해당 프로포절 임베딩과 가까울 때 해당 프로포절의 마스크에 픽셀이 할당되는 임베딩 커플링을 정의하고, 마스크 확률을 얻기 위한 학습 가능한 가우시안 유사 매핑 phi를 사용합니다.
- 멀티스케일 객체에 맞추어 세그먼트 마진을 조정하기 위해 학습 가능한 per-instance 마진 Sigma_k를 가우시안 커널로 도입합니다.
- 학습 중 평균 양성 샘플과 Q_k 및 Sigma_k를 맞추는 매끄러운 손실을 도입하여 학습과 추론 간의 일관성을 보장합니다.
- L = L_cls + L_center + L_box + lambda1 L_mask + lambda2 L_smooth의 멀티 태스크 손실을 최적화합니다. L_mask는 픽셀-프로포절 임베딩 정렬 및 마스크 확률을 Lovasz hinge 손실로 안내합니다.
실험 결과
연구 질문
- RQ1단일 단계 인스턴스 분할 프레임워크가 COCO에서 Mask R-CNN과 같은 두 단계 모델의 성능에 경쟁할 수 있습니까?
- RQ2픽셀 임베딩과 임베딩 커플링이 높은 속도를 유지하면서 더 높은 충실도의 마스크를 제공합니까?
- RQ3학습 가능한 per-instance 마진이 고정 마진 구성을 능가하며 다중 스케일 객체 마스크에 대해 클러스터링을 개선합니까?
- RQ4픽셀과 프로포절에 대해 별도의 임베딩을 예측하고 이들의 유사도를 사용해 픽셀-인스턴스 할당을 안내하는 것이 이점이 있습니까?
- RQ5RoI 풀링을 피하면서도 상세한 마스크를 유지하면 정확도를 희생하지 않고 속도 이점을 얻을 수 있습니까?
주요 결과
- EmbedMask는 동일한 학습 설정에서 Mask R-CNN에 비해 COCO 결과가 경쟁력 있습니다(예: 마스크 AP의 차이가 작음으로 비교).
- 일발 접근 방식은 RoI 풀링을 피하고 픽셀 임베딩에서 고해상도로 직접 마스크를 예측하여 더 높은 디테일의 마스크를 생성합니다.
- 학습 가능한 per-instance 마진(Sigma)은 마스킹 성능을 개선하고 다중 스케일 객체에 적응하도록 도와, 고정 마진 구성보다 우수합니다.
- 픽셀 임베딩 p와 프로포절 임베딩 Q의 가우시안 기반 마스크 확률 phi를 이용한 임베딩 커플링은 픽셀-인스턴스 할당과 마스크 품질을 향상시킵니다.
- 해당 방법은 COCO에서 ResNet-101/50 백본으로 설정된 경우에도 Mask R-CNN보다 더 빠른 추론 속도와 비교적 우수한 AP를 보여 다양한 구성에서 속도 이점을 제공합니다(예: 13.7–16.7 fps 대 8.7–8.6 fps).
- EmbedMask-600은 입력 크기가 더 작아 속도를 높이면서도 정확도는 다소 희생합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.