[논문 리뷰] Bridging Category-level and Instance-level Semantic Image Segmentation
본 논문은 카테고리 수준의 시맨틱 세분화 위에 인스턴스 분할 접근법을 구축하여, 시맨틱 마스크에서 인스턴스 경계 상자 변환을 예측하고, 하드 픽셀을 위한 온라인 부트스트래핑을 도입하며, PASCAL VOC 2012에서 시맨틱 IoU를 최상위 수준으로, 인스턴스 분할은 경쟁력 있게 달성한다.
We propose an approach to instance-level image segmentation that is built on top of category-level segmentation. Specifically, for each pixel in a semantic category mask, its corresponding instance bounding box is predicted using a deep fully convolutional regression network. Thus it follows a different pipeline to the popular detect-then-segment approaches that first predict instances' bounding boxes, which are the current state-of-the-art in instance segmentation. We show that, by leveraging the strength of our state-of-the-art semantic segmentation models, the proposed method can achieve comparable or even better results to detect-then-segment approaches. We make the following contributions. (i) First, we propose a simple yet effective approach to semantic instance segmentation. (ii) Second, we propose an online bootstrapping method during training, which is critically important for achieving good performance for both semantic category segmentation and instance-level segmentation. (iii) As the performance of semantic category segmentation has a significant impact on the instance-level segmentation, which is the second step of our approach, we train fully convolutional residual networks to achieve the best semantic category segmentation accuracy. On the PASCAL VOC 2012 dataset, we obtain the currently best mean intersection-over-union score of 79.1%. (iv) We also achieve state-of-the-art results for instance-level segmentation.
연구 동기 및 목표
- 강력한 카테고리 수준 분할을 활용하는 인스턴스 분할 방법을 동기 부여하고 개발한다
- 회귀 기반 바운딩-박스 변환을 통해 의미(score) 맵을 후보 인스턴스 위치로 변환한다
- 하드 픽셀의 온라인 부트스트래핑으로 학습을 개선하여 시맨틱 및 인스턴스 분할 모두를 향상시킨다
- 큰 시야각과 확장 합성곱을 갖는 완전 컨볼루션 잔차 네트워크(FCRN)를 설계하고 평가한다
- 표준 벤치마크(PASCAL VOC 2012, Cityscapes, PASCAL-Context)에서 최첨단 시맨틱 세분화 및 경쟁력 있는 인스턴스 분할을 보여준다
제안 방법
- FCN 기반 잔차 네트워크(FCRN)를 사용하여 카테고리별 시맨틱 점수 맵을 예측한다
- 각 픽셀로부터 인스턴스 바운딩 박스의 수직/수평 오프셋과 높이/너비를 예측하는 로케이션/회귀 네트워크를 학습한다
- 예측된 바운딩 박스 변환으로 시맨틱 점수 맵을 변환하여 픽셀 단위 로컬라이제이션 맵을 얻는다
- 변환된 맵에서 비최대 억제(NMS)를 적용해 인스턴스 가설을 생성한다
- NMS로 도출된 영역 내에서 점수를 역추적하고 평균화하여 인스턴스 마스크를 형성한 뒤 최종 결과를 위해 영역 기반 NMS를 수행한다
- 온라인 부트스트래핑으로 쉽게 픽셀(시맨틱: p_ij < t에 기반; 로컬라이제이션: 예측 박스와 실제 박스 간 IoU)에 따라 가중치를 낮춰 어려운 예제에 집중한다
- ResNet을 완전 컨볼루션 네트워크로 전환하고 최종 풀링 층 제거, atrous/dilated 합성곱 사용으로 큰 FoV를 확보하되 해상도 유지, 픽셀 단위 분류를 위한 고해상도 특징 맵 가능하도록 FCRN 구성
실험 결과
연구 질문
- RQ1경계 상자 감지기 없이도 카테고리 수준의 시맨틱 분할을 기반으로 고품질의 인스턴스 분할을 달성할 수 있는가?
- RQ2하드 픽셀의 온라인 부트스트래핑이 시맨틱 및 인스턴스 분할 성능을 향상시키는가?
- RQ3완전 컨볼루션 잔차 네트워크에서 깊이, 해상도, 시야각, 확장 등의 아키텍처 선택이 분할 정확도에 어떤 영향을 미치는가?
- RQ4향상된 시맨틱 분할이 다운스트림 인스턴스 분할 성능에 어떤 영향을 미치는가?
- RQ5제안된 방법이 표준 벤치마크에서 경계 상자 기반 인스턴스 분할과 어떻게 비교되는가?
주요 결과
- 시맨틱 분할은 PASCAL VOC 2012에서 증강 학습 데이터를 사용해 평균 IoU 79.1%로 최첨단 달성
- 인스턴스 수준 결과는 PASCAL VOC 2012에서 이전 최고 방법과 비슷하거나 더 우수하며, IoU 0.7에서 mAP_r의 절대 개선이 5.1% 포인트(41.5%에서 46.6%로)
- 하드 픽셀의 온라인 부트스트래핑으로 성능이 크게 향상되어 Cityscapes에서 IoU가 3.1% 향상
- 부트스트래핑이 적용된 FCRN이 가장 잘 작동하는 시맨틱 모델로서 강한 시맨틱 정확도를 보이며 이로 인해 인스턴스 분할 성능이 향상
- COCO에서 시맨틱 네트워크를 사전 학습하면 IoU 0.5에서 mAP_r 약 2.0% 추가로 인스턴스 분할 성능 향상 가능
- 정성적 결과는 경계 상자 검출기에 의존하지 않고도 정확한 시맨틱 구분과 일관된 인스턴스 마스크를 보여준다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.