QUICK REVIEW

[논문 리뷰] SOLQ: Segmenting Objects by Learning Queries

Bin Dong, Fangao Zeng|arXiv (Cornell University)|2021. 06. 04.

Advanced Image and Video Retrieval Techniques참고 문헌 54인용 수 56

한 줄 요약

SOLQ는 DETR를 기반으로 한 엔드-투-엔드 인스턴스 세분화 프레임워크를 제시하며, 압축 기술로 인코딩된 마스크 벡터로 클래스, bbox, 마스크를 예측하는 통합 쿼리 표현을 학습합니다. COCO에서 최신 수준의 성능을 달성하고 다중 작업 학습을 통해 DETR의 탐지를 향상시킵니다.

ABSTRACT

In this paper, we propose an end-to-end framework for instance segmentation. Based on the recently introduced DETR [1], our method, termed SOLQ, segments objects by learning unified queries. In SOLQ, each query represents one object and has multiple representations: class, location and mask. The object queries learned perform classification, box regression and mask encoding simultaneously in an unified vector form. During training phase, the mask vectors encoded are supervised by the compression coding of raw spatial masks. In inference time, mask vectors produced can be directly transformed to spatial masks by the inverse process of compression coding. Experimental results show that SOLQ can achieve state-of-the-art performance, surpassing most of existing approaches. Moreover, the joint learning of unified query representation can greatly improve the detection performance of DETR. We hope our SOLQ can serve as a strong baseline for the Transformer-based instance segmentation. Code is available at https://github.com/megvii-research/SOLQ.

연구 동기 및 목표

NMS와 같은 후처리 없이 엔드-투-엔드 인스턴스 세분화 프레임워크를 제안한다.
분류, 위치 지정, 세분화를 단일 학습 가능한 쿼리 표현으로 통합한다.
고해상도 마스크를 효율적인 감독 및 재구성을 위한 컴팩트한 마스크 벡터로 인코딩한다.
공동 학습을 통해 COCO에서 경쟁력 있거나 최신 수준의 성능을 입증하고 DETR의 탐지 성능을 향상시킨다.

제안 방법

학습 가능한 객체 쿼리를 갖고 DETR를 기반으로 한다.
분류, 위치 지정, 세분화의 세 부분 작업을 병렬화하기 위해 통합 쿼리 표현(UQR)을 도입한다.
공간 마스크를 압축 부호화(DCT, PCA, 희소 코딩)로 저차원 마스크 벡터로 인코딩하여 감독 및 재구성에 활용한다.
탐지 손실을 포함하고 이분 매칭의 일부가 아닌 마스크 벡터 회귀 손실을 포함한 공동 손실로 학습한다.

실험 결과

연구 질문

RQ1통합 쿼리 표현이 ROI 기반의 후처리 없이 엔드-투-엔드 인스턴스 세분화를 가능하게 할 수 있는가?
RQ2UQR를 통한 탐지와 세분화의 공동 학습이 DETR과 비교하여 두 작업 모두를 향상시키는가?
RQ3어떤 마스크 압축 방식이 최상의 마스크 재구성 품질과 세분화 성능을 제공하는가?
RQ4다중 디코더 보조 감독이 마스크와 탐지 성능에 미치는 영향은 무엇인가?

주요 결과

방법	백본	에포크	AP seg	AP seg S	AP seg M	AP seg L	AP box	AP box S	AP box M	AP box L
SOLQ, ours	R50	50	39.7	21.5	42.5	53.1	48.7	28.6	51.7	63.1
SOLQ, ours	R101	50	40.9	22.5	43.8	54.6	48.7	28.6	51.7	63.1
SOLQ, ours	Swin-L	50	46.7	29.2	50.1	60.9	56.5	37.6	60.0	70.6

SOLQ가 COCO test-dev에서 인스턴스 세분화(AP seg)와 객체 탐지(AP box) 모두에서 최신 성능을 달성했다.
통합 쿼리 표현을 사용하면 테스트 백본에서 DETR의 박스 AP가 약 2포인트 개선된다.
DCT를 이용한 마스크 압축이 테스트 메서드 중 최상의 세분화 및 탐지 성능 균형을 제공한다.
여러 디코더에 걸친 보조 마스크 벡터 손실이 세분화와 탐지 지표를 모두 향상시킨다.
Swin-L 백본을 사용하는 SOLQ는 COCO test-dev에서 예를 들어 AP seg 46.7, AP box 60.9와 같은 높은 성능에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.