QUICK REVIEW

[논문 리뷰] Rank & Sort Loss for Object Detection and Instance Segmentation

Kemal Öksüz, Barış Can Çam|arXiv (Cornell University)|2021. 07. 24.

Advanced Neural Network Applications참고 문헌 43인용 수 6

한 줄 요약

이 논문은 객체 검출 및 인스턴스 세그멘테이션을 위한 새로운 미분 가능한 손실 함수인 랭크 & 서트(Rank & Sort, RS) 손실을 제안한다. RS 손실은 양성 검출 결과를 음성보다 높게 순위 매기고, IoU 품질에 따라 정렬한다. 비미분 가능한 순위 매기기 및 정렬 작업을 다루기 위해 아이덴티티 업데이트(Identity Update)를 도입함으로써, 보조 헤드나 샘플링 히우리스틱이 없이도 엔드 투 엔드 학습이 가능해지며, COCO 및 LVIS에서 다양한 모델에서 최신 기준 성능을 달성한다. 학습률 조정 외에 추가 캘리브레이션 없이도 성능 향상이 가능하다.

ABSTRACT

We propose Rank & Sort (RS) Loss, a ranking-based loss function to train deep object detection and instance segmentation methods (i.e. visual detectors). RS Loss supervises the classifier, a sub-network of these methods, to rank each positive above all negatives as well as to sort positives among themselves with respect to (wrt.) their localisation qualities (e.g. Intersection-over-Union - IoU). To tackle the non-differentiable nature of ranking and sorting, we reformulate the incorporation of error-driven update with backpropagation as Identity Update, which enables us to model our novel sorting error among positives. With RS Loss, we significantly simplify training: (i) Thanks to our sorting objective, the positives are prioritized by the classifier without an additional auxiliary head (e.g. for centerness, IoU, mask-IoU), (ii) due to its ranking-based nature, RS Loss is robust to class imbalance, and thus, no sampling heuristic is required, and (iii) we address the multi-task nature of visual detectors using tuning-free task-balancing coefficients. Using RS Loss, we train seven diverse visual detectors only by tuning the learning rate, and show that it consistently outperforms baselines: e.g. our RS Loss improves (i) Faster R-CNN by similar to 3 box AP and aLRP Loss (ranking-based baseline) by similar to 2 box AP on COCO dataset, (ii) Mask R-CNN with repeat factor sampling (RFS) by 3.5 mask AP (similar to 7 AP for rare classes) on LVIS dataset; and also outperforms all counterparts.

연구 동기 및 목표

기존 손실 함수가 객체 검출 및 인스턴스 세그멘테이션에서 극심한 클래스 불균형과 다중 태스크 최적화 문제를 다루는 데에 한계가 있다는 점을 해결하기 위해.
정렬 품질을 직접 분류 손실에 통합함으로써, 예를 들어 중심성 또는 IoU 예측을 위한 보조 헤드가 필요 없도록 하기 위해.
태스크 균형 조정 및 샘플링 히우리스틱을 위한 하이퍼파라미터 튜닝을 제거함으로써 학습을 단순화하기 위해.
딥러닝에서 본질적으로 비미분 가능한 순위 매기기 및 정렬 작업에 대해, 이를 미분 가능한 형태로 재구성하기 위해.

제안 방법

모든 양성 예측을 음성 예측보다 높게 순위 매기고, 연속적인 IoU 값에 따라 정렬하는 다목적 손실인 랭크 & 서트(RS) 손실을 제안한다.
오차 기반 역전파를 재구성한 아이덴티티 업데이트(Identity Update)를 도입하여, 순위 매기기 및 정렬 작업의 미분 가능한 최적화를 가능하게 한다.
양성 예측에 대해 연속적인 IoU 기반 레이블을 사용하여, 더 정확한 국소화를 가진 예측을 우선순위로 하는 정렬 목표를 정의한다.
하이퍼파라미터 튜닝 없이도 태스크 간 손실 가중치를 자동 조정하는 캘리브레이션 불필요한 태스크 균형 조정 메커니즘을 활용한다.
학습률 조정만으로도 다양한 아키텍처(Faster R-CNN, Mask R-CNN, YOLACT, SOLOv2 등)에 RS 손실을 적용한다.
정위치화 품질을 분류 목표에 직접 통합함으로써, 보조 헤드나 샘플링 히우리스틱 없이도 엔드 투 엔드 학습이 가능하도록 한다.

실험 결과

연구 질문

RQ1객체 검출 및 인스턴스 세그멘테이션에서 단일 통합 손실 함수가 동시에 양성 예측을 음성 예측보다 높게 순위 매기고, 국소화 품질(IoU)에 따라 정렬할 수 있는가?
RQ2딥러닝에서 본질적으로 비미분 가능한 순위 매기기 및 정렬 작업을 역전파를 통해 효과적으로 최적화할 수 있는가?
RQ3RS 손실이 중심성 또는 마스크-IoU 예측을 위한 보조 헤드가 필요 없이도 성능을 유지하거나 향상시킬 수 있는가?
RQ4RS 손실이 극심한 긴 꼬리 분포 및 불균형 데이터셋에서 다중 태스크 검출기의 하이퍼파라미터 튜닝을 얼마나 줄일 수 있는가?
RQ5RS 손실이 추론 시 점수 임계값 설정에 대한 일반화 능력과 강인성을 향상시키는가, 특히 희귀 카테고리에 대해선 어떻게 되는가?

주요 결과

COCO에서 RS 손실은 Faster R-CNN에 대해 3.0 box AP 향상과 aLRP 손실에 대해 2.0 box AP 향상을 기록했으며, 샘플링이나 보조 헤드 없이도 39.6 box AP를 달성했다.
긴 꼬리 분포를 가진 LVIS 데이터셋에서 RS 손실은 반복 요소 샘플링을 사용하는 Mask R-CNN에 대해 3.5 mask AP 향상(희귀 클래스에선 7.0)을 기록했으며, 11.7 fps에서 25.2 mask AP를 달성했다.
학습률 조정만으로도 일곱 가지 다양한 검출기(Faster R-CNN, Mask R-CNN, YOLACT, SOLOv2 등)에서 RS 손실이 최신 기준 성능을 달성했다.
극심한 클래스 불균형에 강건함: RS 손실을 사용해 COCO 및 LVIS에서 양성 대 음성 인스턴스 비율이 최대 1:10,470까지도 샘플링 없이 성공적으로 학습이 가능했다.
RS 손실로 학습된 모델은 더 높은 신뢰도 점수를 출력하나, 효율성을 위해 임계값 조정이 필요하지만, 모든 점수 임계값에서 우수한 성능 유지를 보이며, 특히 희귀 카테고리에서 뛰어난 성능 유지를 보였다.
이중 복잡도로 인해 추론 속도가 다소 감소(반복당 1.5배 이상)하지만, 성능 향상의 이점이 비용을 상회하며, 특히 희귀 카테고리에서 유의미한 성능 향상을 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.