Skip to main content
QUICK REVIEW

[논문 리뷰] Rank & Sort Loss for Object Detection and Instance Segmentation

Kemal Öksüz, Barış Can Çam|arXiv (Cornell University)|2021. 07. 24.
Advanced Neural Network Applications참고 문헌 43인용 수 6
한 줄 요약

이 논문은 객체 검출 및 인스턴스 세그멘테이션을 위한 새로운 미분 가능한 손실 함수인 랭크 & 서트(Rank & Sort, RS) 손실을 제안한다. RS 손실은 양성 검출 결과를 음성보다 높게 순위 매기고, IoU 품질에 따라 정렬한다. 비미분 가능한 순위 매기기 및 정렬 작업을 다루기 위해 아이덴티티 업데이트(Identity Update)를 도입함으로써, 보조 헤드나 샘플링 히우리스틱이 없이도 엔드 투 엔드 학습이 가능해지며, COCO 및 LVIS에서 다양한 모델에서 최신 기준 성능을 달성한다. 학습률 조정 외에 추가 캘리브레이션 없이도 성능 향상이 가능하다.

ABSTRACT

We propose Rank & Sort (RS) Loss, a ranking-based loss function to train deep object detection and instance segmentation methods (i.e. visual detectors). RS Loss supervises the classifier, a sub-network of these methods, to rank each positive above all negatives as well as to sort positives among themselves with respect to (wrt.) their localisation qualities (e.g. Intersection-over-Union - IoU). To tackle the non-differentiable nature of ranking and sorting, we reformulate the incorporation of error-driven update with backpropagation as Identity Update, which enables us to model our novel sorting error among positives. With RS Loss, we significantly simplify training: (i) Thanks to our sorting objective, the positives are prioritized by the classifier without an additional auxiliary head (e.g. for centerness, IoU, mask-IoU), (ii) due to its ranking-based nature, RS Loss is robust to class imbalance, and thus, no sampling heuristic is required, and (iii) we address the multi-task nature of visual detectors using tuning-free task-balancing coefficients. Using RS Loss, we train seven diverse visual detectors only by tuning the learning rate, and show that it consistently outperforms baselines: e.g. our RS Loss improves (i) Faster R-CNN by similar to 3 box AP and aLRP Loss (ranking-based baseline) by similar to 2 box AP on COCO dataset, (ii) Mask R-CNN with repeat factor sampling (RFS) by 3.5 mask AP (similar to 7 AP for rare classes) on LVIS dataset; and also outperforms all counterparts.

연구 동기 및 목표

  • 기존 손실 함수가 객체 검출 및 인스턴스 세그멘테이션에서 극심한 클래스 불균형과 다중 태스크 최적화 문제를 다루는 데에 한계가 있다는 점을 해결하기 위해.
  • 정렬 품질을 직접 분류 손실에 통합함으로써, 예를 들어 중심성 또는 IoU 예측을 위한 보조 헤드가 필요 없도록 하기 위해.
  • 태스크 균형 조정 및 샘플링 히우리스틱을 위한 하이퍼파라미터 튜닝을 제거함으로써 학습을 단순화하기 위해.
  • 딥러닝에서 본질적으로 비미분 가능한 순위 매기기 및 정렬 작업에 대해, 이를 미분 가능한 형태로 재구성하기 위해.

제안 방법

  • 모든 양성 예측을 음성 예측보다 높게 순위 매기고, 연속적인 IoU 값에 따라 정렬하는 다목적 손실인 랭크 & 서트(RS) 손실을 제안한다.
  • 오차 기반 역전파를 재구성한 아이덴티티 업데이트(Identity Update)를 도입하여, 순위 매기기 및 정렬 작업의 미분 가능한 최적화를 가능하게 한다.
  • 양성 예측에 대해 연속적인 IoU 기반 레이블을 사용하여, 더 정확한 국소화를 가진 예측을 우선순위로 하는 정렬 목표를 정의한다.
  • 하이퍼파라미터 튜닝 없이도 태스크 간 손실 가중치를 자동 조정하는 캘리브레이션 불필요한 태스크 균형 조정 메커니즘을 활용한다.
  • 학습률 조정만으로도 다양한 아키텍처(Faster R-CNN, Mask R-CNN, YOLACT, SOLOv2 등)에 RS 손실을 적용한다.
  • 정위치화 품질을 분류 목표에 직접 통합함으로써, 보조 헤드나 샘플링 히우리스틱 없이도 엔드 투 엔드 학습이 가능하도록 한다.

실험 결과

연구 질문

  • RQ1객체 검출 및 인스턴스 세그멘테이션에서 단일 통합 손실 함수가 동시에 양성 예측을 음성 예측보다 높게 순위 매기고, 국소화 품질(IoU)에 따라 정렬할 수 있는가?
  • RQ2딥러닝에서 본질적으로 비미분 가능한 순위 매기기 및 정렬 작업을 역전파를 통해 효과적으로 최적화할 수 있는가?
  • RQ3RS 손실이 중심성 또는 마스크-IoU 예측을 위한 보조 헤드가 필요 없이도 성능을 유지하거나 향상시킬 수 있는가?
  • RQ4RS 손실이 극심한 긴 꼬리 분포 및 불균형 데이터셋에서 다중 태스크 검출기의 하이퍼파라미터 튜닝을 얼마나 줄일 수 있는가?
  • RQ5RS 손실이 추론 시 점수 임계값 설정에 대한 일반화 능력과 강인성을 향상시키는가, 특히 희귀 카테고리에 대해선 어떻게 되는가?

주요 결과

  • COCO에서 RS 손실은 Faster R-CNN에 대해 3.0 box AP 향상과 aLRP 손실에 대해 2.0 box AP 향상을 기록했으며, 샘플링이나 보조 헤드 없이도 39.6 box AP를 달성했다.
  • 긴 꼬리 분포를 가진 LVIS 데이터셋에서 RS 손실은 반복 요소 샘플링을 사용하는 Mask R-CNN에 대해 3.5 mask AP 향상(희귀 클래스에선 7.0)을 기록했으며, 11.7 fps에서 25.2 mask AP를 달성했다.
  • 학습률 조정만으로도 일곱 가지 다양한 검출기(Faster R-CNN, Mask R-CNN, YOLACT, SOLOv2 등)에서 RS 손실이 최신 기준 성능을 달성했다.
  • 극심한 클래스 불균형에 강건함: RS 손실을 사용해 COCO 및 LVIS에서 양성 대 음성 인스턴스 비율이 최대 1:10,470까지도 샘플링 없이 성공적으로 학습이 가능했다.
  • RS 손실로 학습된 모델은 더 높은 신뢰도 점수를 출력하나, 효율성을 위해 임계값 조정이 필요하지만, 모든 점수 임계값에서 우수한 성능 유지를 보이며, 특히 희귀 카테고리에서 뛰어난 성능 유지를 보였다.
  • 이중 복잡도로 인해 추론 속도가 다소 감소(반복당 1.5배 이상)하지만, 성능 향상의 이점이 비용을 상회하며, 특히 희귀 카테고리에서 유의미한 성능 향상을 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.