[논문 리뷰] Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations
이 논문은 IRNet을 도입하여 이미지 수준 감독으로부터 가상 인스턴스 분할 라벨을 생성하고, 클래스 비특정 인스턴스 맵과 픽셀 단위 친화성을 학습함으로써 추가 제안이나 주석 없이도 완전 감독 모델의 학습을 가능하게 한다.
This paper presents a novel approach for learning instance segmentation with image-level class labels as supervision. Our approach generates pseudo instance segmentation labels of training images, which are used to train a fully supervised model. For generating the pseudo labels, we first identify confident seed areas of object classes from attention maps of an image classification model, and propagate them to discover the entire instance areas with accurate boundaries. To this end, we propose IRNet, which estimates rough areas of individual instances and detects boundaries between different object classes. It thus enables to assign instance labels to the seeds and to propagate them within the boundaries so that the entire areas of instances can be estimated accurately. Furthermore, IRNet is trained with inter-pixel relations on the attention maps, thus no extra supervision is required. Our method with IRNet achieves an outstanding performance on the PASCAL VOC 2012 dataset, surpassing not only previous state-of-the-art trained with the same level of supervision, but also some of previous models relying on stronger supervision.
연구 동기 및 목표
- 이미지 수준 클래스 라벨만으로 인스턴스 분할 학습의 필요성 및 필요성에 대한 동기를 제시한다.
- 외부 제안이나 추가 감독 없이 의사 인스턴스 분할 라벨을 생성하는 방법을 개발한다.
- 정확한 인스턴스 구분을 위한 픽셀 간 관계를 도출하기 위해 클래스 주의 맵을 활용한다.
- 가짜 라벨로 표준 분할 모델(예: Mask R-CNN)의 학습을 가능하게 한다.
제안 방법
- 이미지 분류기로부터 Class Attention Maps (CAMs)를 사용하여 인스턴스 영역을 시드한다.
- 두 가지 분기를 갖는 IRNet 도입: (i) 각 픽셀에 대한 중심점 방향 벡터를 예측하는 displacement field, (ii) 경계 맵을 생성하는 클래스 경계 탐지기.
- CAM에서 파생된 픽셀 간 관계를 사용하여 IRNet을 학습: 같은 인스턴스 쌍의 픽셀 변위와 이웃 픽셀 쌍의 클래스 동등성 라벨.
- 센터드에 수렴하도록 변위를 반복적으로 정제하고 클래스 비특정 인스턴스 맵을 생성한다.
- 경계 맵으로부터 픽셀 단위 의미적 친화도를 계산하고 CAM 점수를 임의 보행 기반 전파를 통해 확산시켜 인스턴스 인지 CAM을 형성한다.
- 정제된 인스턴스별 CAM 및 친화도와 인스턴스 맵을 결합하여 의사 인스턴스 마스크를 합성하고, 이러한 의사 라벨로 표준 검출기/세그먼터를 학습한다.
실험 결과
연구 질문
- RQ1이미지 수준 라벨을 활용하여 외부 제안 없이 per-instance 세그먼테이션을 복구할 수 있는가?
- RQ2CAM에서 파생된 픽셀 간 관계를 어떻게 학습하여 신뢰할 수 있는 의사 인스턴스 마스크를 생성할 수 있는가?
- RQ3클래스 경계와 변위 필드를 도입하는 것이 의사 라벨의 품질과 하류 세그멘테이션 정확도를 향상시키는가?
- RQ4제안된 접근 방식이 PASCAL VOC 2012에서 최첨단 약한 지도 방법과 어떻게 비교되는가?
- RQ5IRNet에서 학습된 의사 라벨이 약한 감독으로 학습된 Mask R-CNN 및 DeepLab에 대해 경쟁력 있는 결과를 얻을 수 있는가?
주요 결과
- CAM 및 픽셀 간 관계를 활용한 IRNet은 기존의 이미지 수준 감독 방법(CAM 단독 등)보다 더 높은 품질의 의사 인스턴스 레이블을 생성한다.
- 클래스 경계의 도입은 의사 라벨 품질을 크게 향상시키며, 이들의 제거 실험에서 APr50를 25% 이상 향상시켰다.
- 변위 필드를 추가하면 같은 클래스의 여러 인스턴스를 구분하는 데 도움이 되며 성능이 더 향상된다.
- 의사 라벨로 학습된 Mask R-CNN이 PASCAL VOC 2012에서 더 강력한 감독을 사용하는 여러 방법을 능가한다.
- IRNet이 생성한 의사 의미론적 세그멘테이션 라벨은 PASCAL VOC 2012의 train/val 세트에서 AffinityNet을 mIoU에서 능가하여 픽셀 수준의 친화도가 더 우수함을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.