[논문 리뷰] RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free
RetinaMask는 RetinaNet에 인스턴스 마스크 헤드를 추가하고, 적응형 자기조정 Smooth L1 손실과 더 어려운 샘플링을 도입하여 추론 비용을 늘리지 않으면서 탐지 정확도를 높입니다.
Recently two-stage detectors have surged ahead of single-shot detectors in the accuracy-vs-speed trade-off. Nevertheless single-shot detectors are immensely popular in embedded vision applications. This paper brings single-shot detectors up to the same level as current two-stage techniques. We do this by improving training for the state-of-the-art single-shot detector, RetinaNet, in three ways: integrating instance mask prediction for the first time, making the loss function adaptive and more stable, and including additional hard examples in training. We call the resulting augmented network RetinaMask. The detection component of RetinaMask has the same computational cost as the original RetinaNet, but is more accurate. COCO test-dev results are up to 41.4 mAP for RetinaMask-101 vs 39.1mAP for RetinaNet-101, while the runtime is the same during evaluation. Adding Group Normalization increases the performance of RetinaMask-101 to 41.7 mAP. Code is at:https://github.com/chengyangfu/retinamask
연구 동기 및 목표
- 추론 비용을 일정하게 유지하면서 단일 샷 탐지기의 정확도 증가
제안 방법
- 학습 중 RetinaNet에 인스턴스 마스크 예측 헤드를 추가
- Running mean/variance를 사용해 적응하는 Self-Adjusting Smooth L1 손실 도입
- 양성 앵커를 할당하기 위해 IOU 임계값을 완화하는 Best Matching Policy 채택
- 마스크 제안을 적절한 FPN 계층으로 분배하고 마스크 예측을 위해 ROI-Align 적용
- 마스크 모듈에 다중 스케일 스케줄과 확장된 반복으로 학습
- COCO에서 RetinaMask를 RetinaNet 및 Mask R-CNN과 비교
실험 결과
연구 질문
- RQ1학습 중 마스크 예측 작업을 추가하면 테스트 시 비용을 변경하지 않으면서 단일 샷 탐지기의 정확도가 향상합니까?
- RQ2적응형 손실과 확장된 양성 앵커 샘플링이 학습 안정성과 최종 성능을 향상합니까?
- RQ3Bounding-box와 마스크 정확도 모두에서 COCO에서 RetinaMask가 RetinaNet 및 Mask R-CNN과 어떻게 비교됩니까?
주요 결과
- GN이 포함된 RetinaMask-101은 COCO test-dev에서 41.7 bbox AP 및 52.8 mask AP를 달성하여 RetinaNet-101보다 현저한 차이로 우수합니다
- ResNeXt-101-FPN-GN 기반 RetinaMask은 42.6 bbox AP 및 53.8 mask AP에 도달하여 더 강한 백본에서 추가 이점을 나타냅니다
- 마스크 예측 헤드는 1.5x 일정과 적절한 피처 할당(P2–P5를 마스크에 사용)로 학습될 때 탐지 성능을 향상시킵니다
- Self-Adjusting Smooth L1 손실은 설정 전반에서 강건한 바운딩 박스 회귀 성능을 제공하고 고정된 beta 구성보다 우수합니다
- Best Matching Policy(IOU를 최적 매칭 앵커에 대해 완화)은 더 높은 정확도와 중복 탐지를 줄입니다
- 보고된 설정에서 Mask R-CNN과 비교했을 때 RetinaMask은 바운딩 박스 성능은 경쟁적이고 마스크 성능은 다소 낮습니다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.