QUICK REVIEW

[논문 리뷰] Prime Sample Attention in Object Detection

Yuhang Cao, Kai Chen|arXiv (Cornell University)|2019. 04. 09.

Advanced Neural Network Applications참고 문헌 35인용 수 44

한 줄 요약

본 논문은 프라임 샘플 어텐션(PISA)을 제시합니다. 이는 Hierarchical Local Rank(HLR)와 분류 인지 회귀 손실을 활용하여 prime samples(높은 영향력을 가진 양성/음성 제안)에 학습을 집중시키는 샘플링 및 학습 전략으로, mAP를 향상시키고 COCO 및 VOC 벤치마크에서 무작위 샘플링과 하드 마이닝보다 우수함을 보여줍니다.

ABSTRACT

It is a common paradigm in object detection frameworks to treat all samples equally and target at maximizing the performance on average. In this work, we revisit this paradigm through a careful study on how different samples contribute to the overall performance measured in terms of mAP. Our study suggests that the samples in each mini-batch are neither independent nor equally important, and therefore a better classifier on average does not necessarily mean higher mAP. Motivated by this study, we propose the notion of Prime Samples, those that play a key role in driving the detection performance. We further develop a simple yet effective sampling and learning strategy called PrIme Sample Attention (PISA) that directs the focus of the training process towards such samples. Our experiments demonstrate that it is often more effective to focus on prime samples than hard samples when training a detector. Particularly, On the MSCOCO dataset, PISA outperforms the random sampling baseline and hard mining schemes, e.g., OHEM and Focal Loss, consistently by around 2% on both single-stage and two-stage detectors, even with a strong backbone ResNeXt-101.

연구 동기 및 목표

모든 미니 배치 샘플이 mAP에 동일하게 기여한다고 가정하는 의문을 제기한다.
탐지 성능에 가장 큰 영향을 미치는 샘플이 무엇인지, 그리고 이를 어떻게 순위화할 수 있는지 확인한다.
훈련 중 prime 샘플을 강조하는 실용적인 샘플링 및 손실 전략을 제안한다.
두 단계 및 단일 단계 검출기에서 COCO와 VOC 모두에서 개선을 보인다.

제안 방법

탐지 성능에 가장 큰 영향을 주는 샘플을 prime 샘플로 정의한다.
미니배치 내에서 양성 샘플은 IoU로, 음성 샘플은 점수로 순위를 매기는 Hierarchical Local Rank(HLR)를 도입한다.
HLR 순위를 양성에 대한 손실 가중치와 음성에 대한 손실 가중치로 변환하는 Importance-based Sample Reweighting(ISR)을 개발한다.
샘플 인지 가중치를 사용하여 분류와 회귀를 함께 최적화하는 Classification-Aware Regression Loss(CARL)을 제안한다.
추가 추론 오버헤드 없이 PISA를 두 단계 및 단일 단계 검출기에 적용한다.
PISA가 COCO와 VOC에서 무작위 샘플링 및 하드 마이닝에 비해 이득을 낸다는 것을 보인다.

실험 결과

연구 질문

RQ1객체 탐지기 학습에서 어떤 샘플이 가장 중요한지, 그리고 그 중요도를 어떻게 정량화할 수 있는지?
RQ2훈련 중 prime 샘플의 우선순위 지정이 전통적인 무작위 샘플링이나 하드 마이닝보다 mAP를 더 향상시키는가?
RQ3prime 샘플에 주목하도록 분류와 위치 추정을 함께 최적화하는 방법은 무엇인가?

주요 결과

Method	Backbone	AP	AP50	AP75	AP_S	AP_M	AP_L
Faster R-CNN	ResNet-50	36.7	58.8	39.6	21.6	39.8	44.9
Faster R-CNN	ResNeXt-101	40.3	62.7	44.0	24.4	43.7	49.8
Mask R-CNN	ResNet-50	37.5	59.4	40.7	22.1	40.6	46.2
Mask R-CNN	ResNeXt-101	41.4	63.4	45.2	24.5	44.9	51.8
Faster R-CNN w/ PISA	ResNet-50	38.8	59.3	42.7	22.1	41.7	48.8
Faster R-CNN w/ PISA	ResNeXt-101	42.3	62.9	46.8	24.8	45.5	53.1
Mask R-CNN w/ PISA	ResNet-50	39.3	59.6	43.5	22.1	42.3	49.4
Mask R-CNN w/ PISA	ResNeXt-101	42.9	63.2	47.4	24.9	46.2	54.0
RetinaNet	ResNet-50	37.3	56.5	40.3	20.3	40.4	47.2
RetinaNet w/ PISA	ResNet-50	37.3	56.5	40.3	20.3	40.4	47.2

PISA는 ResNet-50 및 ResNeXt-101-32x4d와 같은 백본을 사용하는 Faster R-CNN, Mask R-CNN, RetinaNet, SSD 기반 검출기에서 COCO 성능(mAP)을 일관되게 향상시킨다.
COCO test-dev에서 PISA는 단일 단계 및 두 단계 검출기에 대해 기준보다 약 2%의 절대 mAP 이득을 제공한다.
양성 및 음성 샘플에 대해 무작위 샘플링 및 하드 마이닝보다 더 좋은 성능을 보이며, 특히 IoU 임계값이 높은 경우(AP75 등)에서 눈에 띄는 이득이 있다.
HLR 기반 순위 매김은 높은 IoU의 양성 샘플을 순위표의 맨 위에, 높은 점수의 음성 샘플을 각자의 순위표 맨 위에 위치시키며 학습을 prime 샘플로 이끈다.
CARL은 회귀 손실을 사용하여 분류 점수를 조정함으로써 분류와 회귀를 상호 연계시키고 prime 샘플의 효과를 높인다.
PISA는 VOC07에서도 개선을 달성하여 데이터세트 간 일반화를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.