[논문 리뷰] Object Counting and Instance Segmentation with Image-level Supervision
이 논문은 전역적 개수와 개체의 공간 분포를 동시에 예측하기 위해 새로운 밀도 맵 추정 방법을 사용하는 이미지 수준의 지도 학습 방법을 제안한다. 하위집계 범위(1–4개 객체)의 애너테이션을 활용하여 PASCAL VOC 2012에서 객체 수세기 성능을 최고 수준으로 달성하고, 이미지 수준의 인스턴스 세분화 성능을 17.8% 향상시켰다.
Common object counting in a natural scene is a challenging problem in computer vision with numerous real-world applications. Existing image-level supervised common object counting approaches only predict the global object count and rely on additional instance-level supervision to also determine object locations. We propose an image-level supervised approach that provides both the global object count and the spatial distribution of object instances by constructing an object category density map. Motivated by psychological studies, we further reduce image-level supervision using a limited object count information (up to four). To the best of our knowledge, we are the first to propose image-level supervised density map estimation for common object counting and demonstrate its effectiveness in image-level supervised instance segmentation. Comprehensive experiments are performed on the PASCAL VOC and COCO datasets. Our approach outperforms existing methods, including those using instance-level supervision, on both datasets for common object counting. Moreover, our approach improves state-of-the-art image-level supervised instance segmentation with a relative gain of 17.8% in terms of average best overlap, on the PASCAL VOC 2012 dataset. Code link: https://github.com/GuoleiSun/CountSeg
연구 동기 및 목표
- 약한 이미지 수준 지도 학습 하에서 전역적 객체 수와 인스턴스의 공간 분포를 동시에 예측하는 문제에 도전한다.
- 인간의 하위집계 행동을 영감으로 받아 1–4개의 객체에 국한된 개수 애너테이션만을 사용하여 애너테이션 부담을 줄인다.
- 이웃한 객체 인스턴스를 더 잘 국소화하기 위해 공간 밀도 맵 예측을 통합하여 이미지 수준 지도 학습의 인스턴스 세분화 성능을 향상시킨다.
- 최소한의 개수 애너테이션만을 사용하는 이미지 수준 지도 학습이 더 강력한 인스턴스 수준 지도 학습(예: 바운딩 박스 또는 점 수준 애너테이션)을 요구하는 기존 방법보다 우월한 성능을 낼 수 있는지 입증한다.
- 두 작업 모두에 공통된 밀도 맵 표현을 사용하여 객체 수세기와 인스턴스 세분화 간 격차를 좁힌다.
제안 방법
- 전역적 객체 수와 지도 학습된 밀도 맵 간의 일致성을 강제하는 새로운 손실 함수를 사용해 딥 네트워크를 훈련시켜 카테고리별 객체 밀도 맵을 구축한다.
- 이미지 수준의 지도 학습을 위해 각 카테고리의 총 객체 수만(1–4개로 제한)을 사용하여 모델을 훈련시켜 애너테이션 비용을 줄인다.
- 객체 제안 영역의 점수 함수에 페널티 항을 도입하여 예측 개수 = 1인 제안을 선호함으로써 이웃한 인스턴스의 국소화 성능을 향상시킨다.
- 예측된 밀도 맵을 활용해 제안 영역 내에서 밀도 값을 누적하여 인스턴스 마스크 생성을 안내함으로써 공간 정밀도를 향상시킨다.
- 전역적 개수에 대한 회귀 손실과 밀도 맵 정확도에 대한 공간 일致성 손실을 조합하여 모델을 엔드 투 엔드로 훈련시킨다.
- 예측된 밀도 맵을 공간 사전 정보로 통합하여 피크 응답 맵(peak response map, PRM) 프레임워크를 인스턴스 세분화에 적응시켜 마스크 국소화 성능을 향상시킨다.
실험 결과
연구 질문
- RQ1이미지 수준 지도 학습에서 1–4개의 객체 수만을 사용하는 것이 전역적 객체 수와 공간 분포를 정확히 예측하는 데 가능할 수 있는가?
- RQ2약한 지도 학습 하에서 학습된 밀도 맵이 인스턴스 세분화 성능 향상에 얼마나 효과적인가?
- RQ3하위집계 범위 지도 학습(1–4개 객체)이 4개 이상의 객체가 포함된 시나리오로 일반화되는 데 충분한가?
- RQ4공간 밀도 정보를 통합하면 인스턴스 세분화에서 이웃한 동일 카테고리의 객체 인스턴스 국소화 성능이 향상되는가?
- RQ5더 강력한 지도 학습(예: 바운딩 박스 또는 점 수준 애너테이션)을 요구하는 기존 방법보다 약한 지도 학습 접근 방식이 객체 수세기 및 세분화에서 더 우월한 성능을 낼 수 있는가?
주요 결과
- 제안된 방법은 COCO 및 PASCAL VOC 2007에서 전역적 객체 수세기 성능을 향상시켜, 모든 개수 범위에서 RMSE 측면에서 이미지 수준 및 인스턴스 수준 지도 학습 방법을 모두 능가한다.
- PASCAL VOC 2007의 사람 카테고리에서, 이 방법은 GAME(3) 점수 1.83을 기록하여 PL-지도 학습 LCFCN(2.80)과 CSRNet(2.44)을 모두 능가한다.
- PASCAL VOC 2012에서 이미지 수준 지도 학습 인스턴스 세분화에 대해, 이 방법은 기존의 PRM 기반 최고 수준의 성능을 17.8% 향상시켜 평균 최고 오버랩(ABO)을 44.3%까지 끌어올렸다.
- 동일 카테고리의 이웃한 인스턴스(예: 여러 마리의 양 또는 말)의 국소화 성능을 크게 향상시켰으며, 이는 PRM이 이를 분리하지 못하는 데서 기인한다.
- 이득은 특히 높은 IoU 임계치(예: 0.75)에서 두드러지게 나타나, 밀도 맵의 공간 가이던스 덕분에 마스크가 정답과 더 잘 일치함을 시사한다.
- 모델은 하위집계 범위를 초월해 잘 일반화되며, 1–4개의 인스턴스만을 훈련 데이터로 사용했음에도 불구하고, 겹쳐진 장면에서 11명의 사람을 정확히 수세기까지 성공했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.