QUICK REVIEW

[논문 리뷰] ISTR: End-to-End Instance Segmentation with Transformers

Jie Hu, Liujuan Cao|arXiv (Cornell University)|2021. 05. 03.

Advanced Neural Network Applications참고 문헌 54인용 수 54

한 줄 요약

ISTR은 Transformer를 기반으로 하는 엔드투엔드 인스턴스 분할 프레임워크로, 저차원 마스크 임베딩을 회귀하고, 이분타당 매칭 세트 손실을 사용하며, 예측을 반복적으로 정제하여 NMS 없이도 COCO에서 경쟁력 있는 성능을 달성합니다.

ABSTRACT

End-to-end paradigms significantly improve the accuracy of various deep-learning-based computer vision models. To this end, tasks like object detection have been upgraded by replacing non-end-to-end components, such as removing non-maximum suppression by training with a set loss based on bipartite matching. However, such an upgrade is not applicable to instance segmentation, due to its significantly higher output dimensions compared to object detection. In this paper, we propose an instance segmentation Transformer, termed ISTR, which is the first end-to-end framework of its kind. ISTR predicts low-dimensional mask embeddings, and matches them with ground truth mask embeddings for the set loss. Besides, ISTR concurrently conducts detection and segmentation with a recurrent refinement strategy, which provides a new way to achieve instance segmentation compared to the existing top-down and bottom-up frameworks. Benefiting from the proposed end-to-end mechanism, ISTR demonstrates state-of-the-art performance even with approximation-based suboptimal embeddings. Specifically, ISTR obtains a 46.8/38.6 box/mask AP using ResNet50-FPN, and a 48.1/39.9 box/mask AP using ResNet101-FPN, on the MS COCO dataset. Quantitative and qualitative results reveal the promising potential of ISTR as a solid baseline for instance-level recognition. Code has been made available at: https://github.com/hujiecpp/ISTR.

연구 동기 및 목표

전통적인 NMS 의존 파이프라인을 넘어서는 인스턴스 분할을 위한 엔드투엔드 학습의 동기를 제시한다.
상자와 클래스 레이블과 함께 저차원 마스크 임베딩을 예측하는 프레임워크를 개발한다.
집합 기반 이분 매칭 손실을 통해 엔드투엔드 최적화를 가능하게 한다.
여러 단계에 걸쳐 검출과 분할을 공동으로 향상시키는 순환적 정제 전략을 도입한다.

제안 방법

저차원 임베딩으로 마스크를 표현하기 위해 마스크 임베딩 인코더/디코더를 학습한다.
상자, 클래스, 및 마스크 임베딩 유사성을 결합하는 이분 매칭 비용을 정의한다.
일치된 예측에 세트 손실을 사용하여 바운딩 박스, 클래스 및 마스크 임베딩을 감독한다.
예측 헤드에 동적 어텐션을 갖춘 Transformer 인코더를 통해 이미지 특징과 RoI 특징을 융합한다.
추론 시 NMS 없이 쿼리 박스와 예측을 업데이트하기 위해 N단계의 순환적 정제를 사용한다.
다중 스케일 백본과 표준 COCO 손실(L1, giou, focal loss, Dice for masks)로 학습한다.

실험 결과

연구 질문

RQ1전체 마스크가 아닌 마스크 임베딩을 예측함으로써 Transformers로 엔드투엔드 인스턴스 분할을 달성할 수 있는가?
RQ2상자, 클래스 및 마스크 임베딩을 결합하는 세트 기반 이분 매칭 손실이 NMS 없는 추론을 가능하게 하는가?
RQ3순환적 정제가 공동 검출 및 분할 성능에 어떤 영향을 미치는가?
RQ4COCO에 대한 엔드투엔드 성능을 최대화하는 아키텍처 선택(동적 어텐션, 풀링, 손실 항목)은 무엇인가?
RQ5특히 작은 물체에서 COCO에서 최첨단 방법과 비교하여 ISTR의 성능은 어떤가?

주요 결과

방법	백본	에폭	APm	APm_S	APm_M	APm_L	APb	APb_S	APb_M	APb_L	FPS	시간	GPU
ISTR, ours	ResNet50-FPN	36	38.6	22.1	40.4	50.6	46.8	27.8	48.7	59.9	13.8	72.5	1080Ti
ISTR, ours	ResNet101-FPN	36	39.9	22.8	41.9	52.3	48.1	28.7	50.4	61.5	11.0	91.3	1080Ti

ISTR은 시험-dev에서 예: 46.8 박스 AP / 38.6 마스크 AP (ResNet50-FPN) 및 48.1 박스 AP / 39.9 마스크 AP (ResNet101-FPN) 등의 경쟁력 있는 COCO 지표를 달성한다.
마스크 임베딩이 직접 마스크 예측보다 더 나은 성능을 보이며, 최적 임베딩 차원은 대략 60–80이다.
정규화된 마스크 임베딩의 코사인 유사도는 마스크 매칭 비용과 전반적 성능을 향상시킨다.
RoI와 이미지 특징을 융합하는 동적 어텐션이 다중 헤드 어텐션보다 이득을 준다.
위치 임베딩을 갖춘 글로벌 평균 풀링은 박스와 마스크 AP를 모두 향상시킨다.
단계별 순환 정제를 통해 여러 단계에 걸쳐 검출과 분할이 공동으로 향상되며 몇 차례 반복 후 포화된다.
ISTR은 작은 물체에서 강한 성능과 end-to-end DETR 기반 방법과 비교해도 경쟁력 있는 Box AP를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.