QUICK REVIEW

[논문 리뷰] Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training

Hongkai Zhang, Hong Chang|arXiv (Cornell University)|2020. 04. 13.

Advanced Neural Network Applications참고 문헌 50인용 수 29

한 줄 요약

Dynamic R-CNN는 두 단계 객체 검출기에서 변화하는 제안 품질을 더 잘 활용하기 위해 훈련 중에 레이블 할당 임계값과 SmoothL1 손실 파라미터를 적응적으로 조정하는 동적 훈련 전략을 제안한다. 제안의 통계에 기반해 양성 샘플 할당을 위한 IoU 임계값과 SmoothL1 손실의 β 파라미터를 동적으로 조정함으로써, 추가적인 추론 비용 없이 MS COCO에서 AP가 1.9% 향상되고 AP₉₀가 5.5% 향상된다.

ABSTRACT

Although two-stage object detectors have continuously advanced the state-of-the-art performance in recent years, the training process itself is far from crystal. In this work, we first point out the inconsistency problem between the fixed network settings and the dynamic training procedure, which greatly affects the performance. For example, the fixed label assignment strategy and regression loss function cannot fit the distribution change of proposals and thus are harmful to training high quality detectors. Consequently, we propose Dynamic R-CNN to adjust the label assignment criteria (IoU threshold) and the shape of regression loss function (parameters of SmoothL1 Loss) automatically based on the statistics of proposals during training. This dynamic design makes better use of the training samples and pushes the detector to fit more high quality samples. Specifically, our method improves upon ResNet-50-FPN baseline with 1.9% AP and 5.5% AP$_{90}$ on the MS COCO dataset with no extra overhead. Codes and models are available at https://github.com/hkzhang95/DynamicRCNN.

연구 동기 및 목표

객체 검출기 훈련 중 제안 품질의 동적 변화와 고정된 훈련 설정 간의 일관성 문제를 해결하기 위해.
고정된 IoU 임계값과 정적 회귀 손실 함수가 고품질 검출을 저해하는 한계를 극복하기 위해.
시간이 지남에 따라 제안의 분포가 변화하는 데에 맞춰 훈련 기준을 적응적으로 조정하여 검출기 성능을 향상시키기 위해.
추론 오버헤드를 증가시키지 않고 다양한 백본과 검출 프레임워크에서 일관된 성능 향상을 달성하기 위해.

제안 방법

동적 레이블 할당은 현재 제안의 분포에 기반해 양성/음성 샘플 할당을 위한 IoU 임계값을 조정하며, 주어진 백분위수에서의 IoU를 임계값으로 사용한다.
동적 SmoothL1 손실은 회귀 레이블의 분포에 따라 SmoothL1 손실 함수의 β 파라미터를 조정하여 작은 오차 기울기를 더 잘 맞춘다.
각 훈련 에포크마다 제안과 회귀 타깃의 누적 통계를 사용해 임계값과 β 파라미터를 업데이트한다.
네트워크 아키텍처를 수정하거나 추가 파라미터를 추가하지 않고도 표준 Faster R-CNN 파ip라인에 동적 구성 요소를 통합한다.
분류 및 회귀 브랜치 양쪽에 적용되어 검출기 품질 향상에 협동적으로 기여한다.
다양한 백본과 검출 헤드, 특히 Mask R-CNN와 Cascade R-CNN와도 호환된다.

실험 결과

연구 질문

RQ1제안 품질이 훈련 중에 변화함에 따라 고정된 IoU 임계값이 레이블 할당에 미치는 영향은 무엇인가?
RQ2훈련 중에 회귀 손실 함수의 형태를 적응적으로 조정하면 고품질 제안에 대한 학습에 어떤 영향을 미칠 수 있는가?
RQ3추론 비용을 증가시키지 않고 동적 훈련이 AP와 AP₉₀에 얼마나 기여할 수 있는가?
RQ4동적 훈련 전략은 다양한 백본 네트워크와 검출 프레임워크로 일반화되는가?

주요 결과

Dynamic R-CNN는 훈련 또는 추론 중 추가적인 계산 비용 없이 MS COCO에서 ResNet-50-FPN 기준 1.9% AP와 5.5% AP₉₀ 향상을 달성한다.
ResNet-101-FPN를 사용해 COCO test-dev에서 42.0% AP를 기록했으며, 다중 해상도 훈련 및 탈형 변형 컨볼루션과 같은 추가 기법을 적용하면 50.1% AP에 도달한다.
ResNet-18, ResNet-50, ResNet-101를 포함한 다양한 백본에서 객체 검출 및 인스턴스 세그멘테이션 작업 전반에 걸쳐 일관된 성능 향상이 관찰된다.
Dynamic R-CNN는 COCO test-dev 세트에서 Cascade R-CNN, TridentNet, DCNv2와 같은 최신 기술 수준의 검출기들을 능가한다.
Mask R-CNN로의 일반화 성능도 뛰어나, 테스트된 모든 백본 구성에서 박스 AP와 세그멘테이션 AP를 모두 향상시킨다.
다중 검출 헤드를 피하기 때문에, Dynamic R-CNN는 Cascade Mask R-CNN보다 1.5배 빠르며, 더 작은 ResNet-18 백본을 사용할 경우 1.74배 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.