Skip to main content
QUICK REVIEW

[논문 리뷰] QueryInst: Parallelly Supervised Mask Query for Instance Segmentation

Y.K. Fang, Shusheng Yang|arXiv (Cornell University)|2021. 05. 05.
Advanced Neural Network Applications참고 문헌 23인용 수 12
한 줄 요약

QueryInst는 단일 쿼리-마스크 대응 관계와 단계 간 병렬 감독을 활용하여 다단계 헤드 연결과 제안 일관성 문제를 제거한 쿼리 기반 인스턴스 세그멘테이션 프레임워크를 제안한다. ResNet-101-FPN 백본을 사용할 때, COCO에서 48.1 박스 AP와 42.8 마스크 AP를 기록하며, HTC를 2 AP 포인트 뛰어넘고 2.4배 빠른 속도로 작동한다.

ABSTRACT

Recently, query based object detection frameworks achieve comparable performance with previous state-of-the-art object detectors. However, how to fully leverage such frameworks to perform instance segmentation remains an open problem. In this paper, we present QueryInst, a query based instance segmentation method driven by parallel supervision on dynamic mask heads. The key insight of QueryInst is to leverage the intrinsic one-to-one correspondence in object queries across different stages, as well as one-to-one correspondence between mask RoI features and object queries in the same stage. This approach eliminates the explicit multi-stage mask head connection and the proposal distribution inconsistency issues inherent in non-query based multi-stage instance segmentation methods. We conduct extensive experiments on three challenging benchmarks, i.e., COCO, CityScapes, and YouTube-VIS to evaluate the effectiveness of QueryInst in instance segmentation and video instance segmentation (VIS) task. Specifically, using ResNet-101-FPN backbone, QueryInst obtains 48.1 box AP and 42.8 mask AP on COCO test-dev, which is 2 points higher than HTC in terms of both box AP and mask AP, while runs 2.4 times faster. For video instance segmentation, QueryInst achieves the best performance among all online VIS approaches and strikes a decent speed-accuracy trade-off. Code is available at \url{https://github.com/hustvl/QueryInst}.

연구 동기 및 목표

  • 쿼리 기반 객체 검출 프레임워크를 인스턴스 세그멘테이션에 적용함으로써 효율성과 일관성을 향상시키는 도전 과제를 해결하기 위해.
  • 다단계 마스크 헤드 간의 명시적 연결이 필요 없고, 인스턴스 세그멘테이션에서 제안 분포의 일관성 문제를 줄이기 위해.
  • 단계 간 객체 쿼리에 대한 병렬 감독을 통해 동적 마스크 헤드를 통합적으로 훈련할 수 있도록 엔드 투 엔드 학습을 가능하게 하기 위해.
  • 유리한 속도-정확도 트레이드오프를 확보하면서도 정적 이미지 및 영상 인스턴스 세그멘테이션 작업에서 뛰어난 성능을 달성하기 위해.

제안 방법

  • 각 단계 내에서 객체 쿼리와 마스크 RoI 특징 간의 내재된 일대일 대응 관계를 활용하여 병렬 감독을 가능하게 한다.
  • 네트워크 전반에 걸쳐 일관된 객체 쿼리 표현을 유지함으로써 단계 간 병렬 감독을 도입한다.
  • 각 단계에서 독립적으로 감독되는 동적 마스크 헤드를 사용하여 이전 단계의 제안에 의존하지 않는다.
  • 명시적 다단계 마스크 헤드 연결을 제거함으로써 복잡성을 줄이고 훈련 안정성을 향상시킨다.
  • 각 객체 쿼리가 통합된 프레임워크 내에서 바운딩 박스와 마스크를 동시에 예측하는 쿼리 기반 아키텍처를 적용한다.
  • 단계 간 동일한 쿼리 표현을 적용하여 일관성을 유지하고 엔드 투 엔드 최적화를 가능하게 한다.

실험 결과

연구 질문

  • RQ1쿼리 기반 인스턴스 세그멘테이션은 높은 추론 속도를 유지하면서도 최신 성능을 달성할 수 있는가?
  • RQ2단계 간 병렬 감독이 마스크 헤드 훈련을 어떻게 향상시키고 제안 일관성 문제를 줄이는가?
  • RQ3객체 쿼리와 마스크 특징 간의 일대일 대응 관계가 세그멘테이션 정확도를 얼마나 향상시키는가?
  • RQ4QueryInst는 정적 이미지 및 영상 인스턴스 세그멘테이션 벤치마크에서 기존 방법과 비교해 어떻게 성능을 내는가?

주요 결과

  • ResNet-101-FPN 백본을 사용하여 COCO test-dev에서 QueryInst는 48.1 박스 AP와 42.8 마스크 AP를 달성하며, HTC를 각각 2.0 AP 포인트 뛰어넘었다.
  • 정확도를 유지하면서도 HTC보다 2.4배 더 빠른 속도로 작동하여 유리한 속도-정확도 트레이드오프를 입증했다.
  • 영상 인스턴스 세그멘테이션(VIS)에서 QueryInst는 YouTube-VIS 벤치마크에서 온라인 VIS 방법 중 최고의 성능을 기록했다.
  • 명시적 다단계 마스크 헤드 연결 제거로 인해 훈련 복잡성이 감소하고 특징 일관성이 향상되었다.
  • 병렬 감독 메커니즘이 단계 간 동적 마스크 헤드의 안정적이고 효과적인 훈련을 가능하게 했다.
  • 객체 쿼리와 마스크 RoI 특징 간의 일대일 대응 관계가 특징 정렬과 세그멘테이션 품질을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.