[논문 리뷰] Practical Insights into Semi-Supervised Object Detection Approaches
본 논문은 MS-COCO, Pascal VOC, Beetle에서 클래스당 소수샷 감독 하에 세 가지 최첨단 SSOD 방법(MixPL, Semi-DETR, Consistent-Teacher)을 벤치마킹하고, 실용 배치를 위한 정확도, 레이턴시, 모델 크기를 분석한다.
Learning in data-scarce settings has recently gained significant attention in the research community. Semi-supervised object detection(SSOD) aims to improve detection performance by leveraging a large number of unlabeled images alongside a limited number of labeled images(a.k.a.,few-shot learning). In this paper, we present a comprehensive comparison of three state-of-the-art SSOD approaches, including MixPL, Semi-DETR and Consistent-Teacher, with the goal of understanding how performance varies with the number of labeled images. We conduct experiments using the MS-COCO and Pascal VOC datasets, two popular object detection benchmarks which allow for standardized evaluation. In addition, we evaluate the SSOD approaches on a custom Beetle dataset which enables us to gain insights into their performance on specialized datasets with a smaller number of object categories. Our findings highlight the trade-offs between accuracy, model size, and latency, providing insights into which methods are best suited for low-data regimes.
연구 동기 및 목표
- 클래스당 레이블이 제한된 데이터가 부족한 산업 환경에서 SSOD에 대한 가이던스를 제시한다.
- 공개적으로 이용 가능한 구현체를 가진 세 가지 대표 SSOD 접근법을 고정된 클래스당 샷 수 하에서 비교한다.
- 다양한 복잡도의 데이터셋에 걸쳐 탐지 정확도, 모델 크기, 추론 지연 간의 트레이드오프를 평가한다.
- 실세계 배포를 위한 주석 전략과 모델 선택에 대한 실용적 권고를 제공한다.
제안 방법
- ResNet-50 백본 위에서 세 가지 SSOD 방법—MixPL, Semi-DETR, Consistent-Teacher—을 평가한다.
- MS-COCO, Pascal VOC, Beetle 데이터셋에서 클래스당 k샷 샘플링을 k ∈ {1,5,10,20,50,100,150}으로 사용한다.
- 각 방법과 데이터셋에 대해 mAP(0.50:0.95)와 근사 추론 시간, 모델 크기를 측정한다.
- 동일한 데이터 분할과 공식 기본 학습 구성으로 학습을 표준화한다.
- 트랜스포머 기반 검출기(MixPL, Semi-DETR)를 CNN 기반인 Consistent-Teacher와 비교한다.
- 레이블 데이터 증가에 따라 성능 추세를 분석하고 배포의 트레이드오프를 특징지어 한다.

실험 결과
연구 질문
- RQ1RQ1: 클래스당 라벨 이미지 수 k가 1에서 150으로 변할 때 어떤 SSOD 방법이 가장 잘 작동합니까?
- RQ2RQ2: 저데이터 학습과 전체 탐지 성능 간에 어떤 트레이드오프가 발생합니까?
- RQ3RQ3: 평가된 방법들 간에 성능, 모델 크기, 지연은 어떻게 트레이드오프됩니까?
주요 결과
- MixPL은 일반적으로 k-shot 체계에서 가장 강한 전반 성능을 보이며, Semi-DETR이 그 뒤를 바싹 따른다.
- 트랜스포머 기반 방법(MixPL, Semi-DETR)은 Consistent-Teacher보다 더 높은 피크 정확도를 달성하며, 특히 중~고 데이터 구간에서 그렇습니다.
- Consistent-Teacher는 가장 낮은 추론 지연(이미지당 약 9–15 ms)과 가장 작은 모델 크기를 제공하여 자원 제약 배포에 유리합니다.
- 모든 모델은 k가 증가함에 따라 성능이 개선되지만, 매우 낮은 데이터 구간에서 가장 큰 이득을 보이고 더 높은 샷 수에서는 수익이 감소합니다.
- 추론 시간은 k-shot 설정 전반에서 안정적으로 유지되며, 지연은 학습 데이터 양보다는 아키텍처에 의해 지배됨을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.