QUICK REVIEW

[논문 리뷰] Attention-guided Unified Network for Panoptic Segmentation

Yanwei Li, Xinze Chen|arXiv (Cornell University)|2018. 12. 10.

Visual Attention and Saliency Detection참고 문헌 46인용 수 24

한 줄 요약

이 논문은 MS-COCO에서 46.5% PQ, Cityscapes에서 59.0% PQ를 기록하며 최신 기술 성능을 달성하는 통합 주의 유도 네트워크인 AUNet를 제안한다. AUNet는 개체 수준(전경) 및 의미 수준(배경) 분할을 동시에 최적화하며, 개체 제안과 인스턴스 마스크를 교차 브랜치 주의 신호로 활용하여 전경 및 배경 분할 정확도를 향상시킨다.

ABSTRACT

This paper studies panoptic segmentation, a recently proposed task which segments foreground (FG) objects at the instance level as well as background (BG) contents at the semantic level. Existing methods mostly dealt with these two problems separately, but in this paper, we reveal the underlying relationship between them, in particular, FG objects provide complementary cues to assist BG understanding. Our approach, named the Attention-guided Unified Network (AUNet), is a unified framework with two branches for FG and BG segmentation simultaneously. Two sources of attentions are added to the BG branch, namely, RPN and FG segmentation mask to provide object-level and pixel-level attentions, respectively. Our approach is generalized to different backbones with consistent accuracy gain in both FG and BG segmentation, and also sets new state-of-the-arts both in the MS-COCO (46.5% PQ) and Cityscapes (59.0% PQ) benchmarks.

연구 동기 및 목표

전경 수준의 인스턴스 분할과 배경 수준의 의미 분할을 하나의 종단 간 프레임워크로 통합하는 것.
전경 객체와 배경 콘텐츠 간 상호보완적 맥락 정보를 활용하여 분할 성능을 향상시키는 것.
전경 예측을 사용하여 배경 분할을 유도하는 주의 메커니즘을 개발하는 것.
추가 데이터나 모델 앙상블에 의존하지 않고도 표준 벤치마크에서 최신 기술 성능을 달성하는 것.

제안 방법

AUNet는 인스턴스 분할과 의미 분할을 위한 두 개의 병렬 브랜치를 갖는 공유 백본을 사용한다.
제안 주의 모듈(PAM)은 영역 제안을 사용하여 배경 브랜치에 개체 수준의 주의를 제공한다.
마스크 주의 모듈(MAM)은 예측된 인스턴스 마스크를 사용하여 배경 경계를 정밀하게 보정하기 위한 픽셀 수준의 주의를 제공한다.
새로운 RoIUpsample 레이어는 고정 크기의 인스턴스 마스크와 특징 맵 간 정밀한 특징 매핑을 가능하게 한다.
주의 모듈은 전경에서 배경 브랜치로의 스킵 연결로 구현되어 이중 방향 기울기 전파를 가능하게 한다.
모델는 종단 간 최적화를 통해 양 브랜치가 상호 보완적 감독을 받을 수 있도록 훈련된다.

실험 결과

연구 질문

RQ1교차 브랜치 주의를 활용하여 통합 네트워크 아키텍처가 전경 및 배경 분할 성능을 향상시킬 수 있는가?
RQ2개체 수준과 픽셀 수준의 주의 메커니즘이 풍경 분할에서 배경 이해를 어떻게 향상시키는가?
RQ3특징 상호작용을 통해 전경 인스턴스 분할 정확도가 배경 의미 분할 성능에 얼마나 기여하는가?
RQ4통합 프레임워크가 풍경 분할 벤치마크에서 별도의 인스턴스 및 의미 분할 헤드 훈련보다 우수한 성능을 낼 수 있는가?

주요 결과

AUNet는 MS-COCO 테스트-디브에서 46.5% PQ를 기록하며, 추가 데이터나 모델 앙상블 없이도 새로운 최신 기술 성능을 달성한다.
Cityscapes에서는 59.0% PQ를 기록하여 이전 최신 기술 성능보다 5.2%의 절대적 우월성을 확보한다.
ResNet-50-FPN 및 ResNet-101-FPN를 포함한 다양한 백본에서 일관된 정확도 향상이 관찰된다.
제거 분석 결과, PAM과 MAM이 성능 향상에 크게 기여하며, 특히 배경 분할 향상에 기여함을 확인한다.
추가 데이터나 복잡한 개선 기법 없이도 COCO 2018 풍경 분할 챌린지 우승자보다 PQ_St에서 4.9% 높은 성능을 기록한다.
AUNet는 사물과 물질 분할 간 균형을 더 잘 달성하여 PQ_Th와 PQ_St 모두 향상되어 효과적인 통합 최적화를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.