QUICK REVIEW

[논문 리뷰] SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation

Jiale Cao, Rao Muhammad Anwer|arXiv (Cornell University)|2020. 07. 29.

Advanced Neural Network Applications참고 문헌 56인용 수 28

한 줄 요약

SipMask는 객체 박스 내부의 공간 정보를 유지하기 위해 경량적인 공간 보존(Spatial Preservation, SP) 모듈을 사용하여 부분 영역별 공간 계수를 생성함으로써, 인접한 객체에 대한 마스크 정확도를 향상시키는 빠른 단일 단계(instance segmentation) 방법을 제안한다. 이는 TensorMask보다 1.0% 높은 AP 성능을 기록하며 YOLACT보다 3.0% 향상된 성능을 달성했고, TensorMask보다 4배 빠르게 작동하며 Titan Xp에서 실시간 속도로 실행된다.

ABSTRACT

Single-stage instance segmentation approaches have recently gained popularity due to their speed and simplicity, but are still lagging behind in accuracy, compared to two-stage methods. We propose a fast single-stage instance segmentation method, called SipMask, that preserves instance-specific spatial information by separating mask prediction of an instance to different sub-regions of a detected bounding-box. Our main contribution is a novel light-weight spatial preservation (SP) module that generates a separate set of spatial coefficients for each sub-region within a bounding-box, leading to improved mask predictions. It also enables accurate delineation of spatially adjacent instances. Further, we introduce a mask alignment weighting loss and a feature alignment scheme to better correlate mask prediction with object detection. On COCO test-dev, our SipMask outperforms the existing single-stage methods. Compared to the state-of-the-art single-stage TensorMask, SipMask obtains an absolute gain of 1.0% (mask AP), while providing a four-fold speedup. In terms of real-time capabilities, SipMask outperforms YOLACT with an absolute gain of 3.0% (mask AP) under similar settings, while operating at comparable speed on a Titan Xp. We also evaluate our SipMask for real-time video instance segmentation, achieving promising results on YouTube-VIS dataset. The source code is available at https://github.com/JialeCao001/SipMask.

연구 동기 및 목표

객체 박스 내부의 공간 정보 손실로 인해 공간적으로 인접한 객체를 정확히 분할하지 못하는 단일 단계 인스턴스 세그멘테이션 모델의 낮은 성능 문제를 해결하기 위해.
특히 실시간 응용을 위해 추론 속도를 희생시키지 않고 마스크 예측 정확도를 향상시키기 위해.
객체 제안 영역 내에서 세밀한 공간 표현을 가능하게 하는 경량 모듈을 개발하기 위해.
일관된 성능을 유지하면서 실시간 영상 인스턴스 세그멘테이션으로의 방법 확장하기 위해.

제안 방법

각 객체의 박스를 부분 영역으로 분할하고, 각 부분 영역에 대해 별도의 공간 계수를 생성함으로써 공간 세부 정보를 보존하는 새로운 경량 공간 보존(Spatial Preservation, SP) 모듈을 도입한다.
분류 신뢰도와 진짜값과의 IoU를 기반으로 픽셀 단위 BCE 손실을 재가중하는 마스크 정렬 가중 손실을 적용하여 정확한 박스에 우선순위를 둔다.
검출 및 마스크 예측 헤드 간의 상관관계를 향상시키기 위해 특징 정렬 기법을 적용하여 특징 표현을 강화한다.
모든 컨볼루션 추적 브랜치를 추가하여 단일 단계 프레임워크를 영상 인스턴스 세그멘테이션에 확장함으로써 프레임 간 인스턴스 연관성을 구현한다.
COCO에선 ResNet101-FPN 백본을, YouTube-VIS에선 ResNet50-FPN을 사용하여 단일 해상도 추론 설정을 적용함으로써 실시간 성능를 확보한다.
정확도와 속도 사이의 최적의 균형을 확보하기 위해 $2\times2$ 부분 영역 분할을 선택하였으며, 이는 아블레이션 실험을 통해 검증되었다.

실험 결과

연구 질문

RQ1객체 박스 내부의 공간 정보 보존이 단일 단계 인스턴스 세그멘테이션에서 마스크 품질 향상에 기여하는가?
RQ2부분 영역별 공간 계수를 사용할 경우 공간적으로 인접한 인스턴스의 경계 분할이 향상되는가?
RQ3경량 공간 보존 모듈이 추론 속도를 희생시키지 않고 정확도 향상에 기여하는가?
RQ4제안된 마스크 정렬 가중 손실이 마스크 예측 성능에 어떤 영향을 미치는가?
RQ5단일 단계 SipMask 프레임워크는 실시간 영상 인스턴스 세그멘테이션으로 효과적으로 확장될 수 있는가?

주요 결과

SipMask는 단일 해상도 입력 $544\times544$를 사용하여 COCO test-dev에서 32.8 mask AP를 기록했고, Titan Xp에서 실시간 속도(30 fps)로 작동한다.
COCO test-dev에서 SipMask는 최신 단일 단계 방법인 TensorMask보다 1.0% 높은 마스크 AP 성능을 기록했고, TensorMask보다 4배 빠른 속도를 확보했다.
Titan Xp에서 실시간 YOLACT와 유사한 추론 속도 설정에서 SipMask는 마스크 AP를 3.0% 향상시켰다.
아블레이션 연구 결과, $2\times2$ 부분 영역이 정확도와 속도 사이의 최적 균형을 제공하며, 32.9 AP를 기록했고, $3\times3$를 초과할 경우 성능 향상 폭이 미미한 것으로 나타났다.
마스크 정렬 가중 손실은 분류 및 위치 정보 점수를 모두 활용해 재가중할 경우, 성능을 0.8% 향상시켰다(31.2에서 32.0 AP로).
YouTube-VIS에서 SipMask는 32.5 AP를 기록하여 MaskTrack R-CNN보다 마스크 정확도에서 2.2% 높은 성능를 달성했고, 30 fps에서 작동했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.