Skip to main content
QUICK REVIEW

[논문 리뷰] Scale-Aware Trident Networks for Object Detection

Yanghao Li, Yuntao Chen|arXiv (Cornell University)|2019. 01. 07.
Advanced Neural Network Applications참고 문헌 44인용 수 90
한 줄 요약

TridentNet은 공유 가중치를 가진 병렬 가지를 통해 스케일에 따라 다른 수용 영역을 갖는 스케일 특정 특징 맵을 도입하고, 스케일 인식 샘플링으로 훈련되어, 추가 매개변수 없이 상태-최상 단일 모델 COCO 결과를 달성한다(예: 설정에 따라 46.8–48.4 AP).

ABSTRACT

Scale variation is one of the key challenges in object detection. In this work, we first present a controlled experiment to investigate the effect of receptive fields for scale variation in object detection. Based on the findings from the exploration experiments, we propose a novel Trident Network (TridentNet) aiming to generate scale-specific feature maps with a uniform representational power. We construct a parallel multi-branch architecture in which each branch shares the same transformation parameters but with different receptive fields. Then, we adopt a scale-aware training scheme to specialize each branch by sampling object instances of proper scales for training. As a bonus, a fast approximation version of TridentNet could achieve significant improvements without any additional parameters and computational cost compared with the vanilla detector. On the COCO dataset, our TridentNet with ResNet-101 backbone achieves state-of-the-art single-model results of 48.4 mAP. Codes are available at https://git.io/fj5vR.

연구 동기 및 목표

  • 수용 영역 크기가 스케일 변화에 따른 탐지에 어떤 영향을 미치는지 조사한다.
  • 공유 가중치를 갖는 다중 가지 Trident 아키텍처를 제안하여 스케일 특정 특징을 생성한다.
  • 객체 스케일에 각 가지를 특화시키기 위한 스케일 인식 학습 기법을 개발한다.
  • 추가 매개변수 없이 성능을 유지하는 빠른 추론 변형을 제공한다.
  • COCO에서 TridentNet을 최첨단 검출기와 비교 평가하고 소거(ablation) 실험을 분석한다.

제안 방법

  • 일부 백본 블록을 매개변수를 공유하지만 서로 다른 확장률을 사용하는 트라이던트 블록으로 대체하여 TridentNets를 구성한다.
  • 브랜치 간 가중치 공유를 사용하여 전체 매개변수 수를 기준선과 같게 유지한다.
  • 브랜치별로 미리 정의된 유효 범위 내에 있는 스케일의 RoI를 선택하여 스케일 인식 학습을 적용한다.
  • 추론 중 가지의 출력은 NMS를 통해 융합하여 최종 탐지를 생성한다; 주요 가지 하나를 사용하는 빠른 TridentNet Fast 변형을 포함한다.
  • 성능을 보존하면서 추론에 중간 가지를 사용하는 빠른 근사치를 제공한다.

실험 결과

연구 질문

  • RQ1수용 영역을 다르게 하는 것이 객체 스케일 전반에 걸친 탐지 성능에 어떤 영향을 미치는가?
  • RQ2매개변수를 늘리지 않으면서 다중 가지, 스케일 인식 네트워크가 스케일 전반에 걸쳐 균일한 표현 능력을 달성할 수 있는가?
  • RQ3가중치 공유와 스케일 인식 학습이 단일 가지 기준선 대비 전체 탐지 정확도에 미치는 영향은 어느 정도인가?

주요 결과

BackboneMethodAPAP50AP75APsAPmAPl
ResNet-101TridentNet40.661.823.045.555.9
ResNet-101-DeformableTridentNet41.862.923.646.857.1
ResNet-101-DeformableTridentNet*46.867.651.528.051.260.5
ResNet-101-DeformableTridentNet* + Image Pyramid48.469.753.531.851.360.3
  • 수용 영역을 확대하면 큰 물체에는 도움이 되나 작은 물체에는 해가 될 수 있어 스케일 인식의 가지별 처리가 필요함을 시사한다.
  • 공유 가중치와 스케일 인식 학습을 갖춘 3-가지 TridentNet은 기준선 대비 AP를 향상시키며 (예: ResNet-101에서 COCO minival의 37.9에서 40.6으로 증가).
  • 변형 가능(backbone)을 사용할 경우 TridentNet이 더 높은 AP를 달성한다 (예: 41.8 대 39.9의 기준선).
  • 세 가지 가지를 갖춘 TridentNet은 이미지 피라미드 없이 COCO test-dev에서 46.6–46.8 AP에 도달하고, 이미지 피라미드를 사용하면 48.4 AP에 도달한다(단일 모델, ResNet-101-Deformable, TridentNet*).
  • 주요 가지를 사용하는 빠른 추론 변형(TridentNet Fast)은 추가 매개변수나 계산 없이 거의 동일한 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.