QUICK REVIEW

[논문 리뷰] MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers

Huiyu Wang, Yukun Zhu|arXiv (Cornell University)|2020. 12. 01.

Advanced Neural Network Applications참고 문헌 98인용 수 32

한 줄 요약

MaX-DeepLab은 마스크 트랜스포머와 이중 경로 CNN+메모리 아키텍처를 사용해 직접 클래스 라벨이 부여된 마스크를 예측하는 최초의 엔드-투-엔드 팬토픽 세분화 모델로, 테스트 타임 증강 없이 COCO에서 PQ를 최첨단으로 달성합니다.

ABSTRACT

We present MaX-DeepLab, the first end-to-end model for panoptic segmentation. Our approach simplifies the current pipeline that depends heavily on surrogate sub-tasks and hand-designed components, such as box detection, non-maximum suppression, thing-stuff merging, etc. Although these sub-tasks are tackled by area experts, they fail to comprehensively solve the target task. By contrast, our MaX-DeepLab directly predicts class-labeled masks with a mask transformer, and is trained with a panoptic quality inspired loss via bipartite matching. Our mask transformer employs a dual-path architecture that introduces a global memory path in addition to a CNN path, allowing direct communication with any CNN layers. As a result, MaX-DeepLab shows a significant 7.1% PQ gain in the box-free regime on the challenging COCO dataset, closing the gap between box-based and box-free methods for the first time. A small variant of MaX-DeepLab improves 3.0% PQ over DETR with similar parameters and M-Adds. Furthermore, MaX-DeepLab, without test time augmentation, achieves new state-of-the-art 51.3% PQ on COCO test-dev set. Code is available at https://github.com/google-research/deeplab2.

연구 동기 및 목표

앵커, 박스, NMS와 같은 수작업으로 설계된 사전 지식 없이 엔드-투-엔드 팬토픽 세분화 접근법의 동기를 부여한다.
직접 클래스 라벨이 부여된 마스크 집합을 예측하고 PQ에서 영감을 받은 이분 매칭 손실로 최적화한다.
CNN 계층과의 전역 메모리 통신을 가능하게 하는 이중 경로 트랜스포머를 도입한다.
엔드-투-엔드 마스크 예측이 COCO에서 박스 기반 방법과 박스 프리 방법 간의 격차를 줄임을 보여준다.

제안 방법

각 이미지에 대해 고정 크기의 클래스 라벨 마스크 세트와 확률을 직접 예측한다.
예측 마스크와 실제 마스크 간의 일대일 이분 매칭을 기반으로 한 PQ 스타일 손실로 학습한다.
CNN 픽셀 경로와 1D 글로벌 메모리 경로를 결합하는 이중 경로 트랜스포머를 도입하여 네 가지 주의(attention) 모드(M2P, M2M, P2M, P2P)를 가능하게 한다.
다중 스케일 특징을 융합하고 마스크 예측을 형성하기 위해 스택형 하그라스 스타일 디코더를 사용한다.
보조 손실로는 픽셀별 인스턴스 구별, 마스크-ID 크로스 엔트로피, 그리고 학습 보조를 위한 시맨틱 세분화 손실이 포함된다.

실험 결과

연구 질문

RQ1상자나 중심과 같은 대리 하위 작업 없이 엔드-투-엔드 모델이 팬토픽 마스크를 직접 예측할 수 있는가?
RQ2일대일 이분 매칭을 통한 PQ 스타일 objective 최적화가 박스 기반 또는 박스 프리 접근 방식과 비교하여 팬토픽 세분화 성능을 향상시키는가?
RQ3이중 경로 트랜스포머가 CNN 특징과 전역 메모리를 효과적으로 통합하여 마스크 예측 품질을 향상시키는가?
RQ4디코더 깊이, 입력 해상도, 어텐션 유형이 COCO에서 PQ 및 관련 지표에 미치는 영향은 무엇인가?
RQ5보조 손실(인스턴스 구별, 마스크-ID 크로스 엔트로피, 시맨틱 세분화)이 측정 가능한 이득을 제공하는가?

주요 결과

MaX-DeepLab은 테스트 타임 증강 없이 COCO test-dev에서 최첨단 PQ를 달성한다(대형 모델의 PQ 51.3%).
박스 프리 영역에서 MaX-DeepLab은 Axial-DeepLab을 PQ로 7.1% 포인트 상회하고 강한 조건에서 박스 기반 DetectoRS보다 우수하여 박스 기반과 박스 프리 방법 간의 격차를 줄인다.
경량 변형(MaX-DeepLab-S)은 비슷한 파라미터 수를 가진 DETR보다 검증 세트(val)에서 PQ 3.3%, test-dev에서 PQ 3.0% 더 우수하다.
이중 경로 트랜스포머는 다중 해상도에서 CNN 특징과 전역 메모리 간의 형성 및 통신을 가능하게 하여 마스크 예측을 개선한다.
특히 픽셀 단위 인스턴스 구별과 마스크-ID 예측과 같은 보조 손실은 PQ 스타일 손실과 결합될 때 상당한 PQ 이득을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.