[논문 리뷰] Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision
이 논문은 새로운 특징 융합 피라미드와 자기지도 학습 세그멘테이션 브랜치를 통해 특징 학습을 향상시키는 단일 스텝 얼굴 검출기인 DF²S²을 제안한다. 공간적 및 채널별 주의를 적용하여 고수준 의미 정보와 저수준 세부 정보를 융합하고, 약한 지도 학습 기반 세그멘테이션을 통해 구분 능력 있는 특징 학습을 유도함으로써, WIDER FACE에서 실시간 추론 속도 26.45 FPS를 유지하면서도 검출 성능이 SOTA 수준인 mAP 95.6% (Easy), 94.7% (Medium), 89.8% (Hard)를 달성한다.
The performance of face detectors has been largely improved with the development of convolutional neural network. However, it remains challenging for face detectors to detect tiny, occluded or blurry faces. Besides, most face detectors can't locate face's position precisely and can't achieve high Intersection-over-Union (IoU) scores. We assume that problems inside are inadequate use of supervision information and imbalance between semantics and details at all level feature maps in CNN even with Feature Pyramid Networks (FPN). In this paper, we present a novel single-shot face detection network, named DF$^2$S$^2$ (Detection with Feature Fusion and Segmentation Supervision), which introduces a more effective feature fusion pyramid and a more efficient segmentation branch on ResNet-50 to handle mentioned problems. Specifically, inspired by FPN and SENet, we apply semantic information from higher-level feature maps as contextual cues to augment low-level feature maps via a spatial and channel-wise attention style, preventing details from being covered by too much semantics and making semantics and details complement each other. We further propose a semantic segmentation branch to best utilize detection supervision information meanwhile applying attention mechanism in a self-supervised manner. The segmentation branch is supervised by weak segmentation ground-truth (no extra annotation is required) in a hierarchical manner, deprecated in the inference time so it wouldn't compromise the inference speed. We evaluate our model on WIDER FACE dataset and achieved state-of-art results.
연구 동기 및 목표
- 실세계 환경에서의 소형, 부분 가림, 흐린 얼굴 검출 문제를 해결한다.
- 특징 피라미드의 각 수준에서 의미 정보와 세부 정보의 균형을 맞추어 특징 표현을 향상시킨다.
- 앵커 기반 검출의 한계를 극복하기 위해 세그멘테이션 브랜치를 통해 보다 효과적으로 지도 신호를 활용한다.
- 효율적인 아키텍처 설계를 통해 정확도 향상과 함께 실시간 추론 속도를 유지한다.
제안 방법
- 고수준 의미 특징을 맥락적 단서로 사용하여 저수준 특징 맵을 향상시키는 공간적 및 채널별 주의 기반 특징 융합 기법을 제안한다.
- 약한 지도 학습 기반 바운딩 박스 애너테이션을 사용해 학습하는 자기지도 학습 세그멘테이션 브랜치를 도입하여 추가 애너테이션 없이도 특징 학습을 유도한다.
- 세그멘테이션 브랜치에 계층적 지도 학습을 적용하여 특징의 구분 능력을 향상시키면서도 추론 속도를 유지한다.
- 특징의 업샘플링 과정에서 공간 해상도를 유지하고 정보 손실을 최소화하기 위해 역합성 컨볼루션을 사용한다.
- 검출 및 세그멘테이션 손실을 병합하는 다중 작업 학습 전략을 적용하고 최적화의 균형을 위해 가중치를 적응적으로 조정한다.
- 추론 시 성능 저하를 방지하기 위해 세그멘테이션 브랜치는 학습 시에만 사용하고 추론 시에는 제거한다.
실험 결과
연구 질문
- RQ1특징 융합 과정에서 세분화된 특징이 억압되지 않도록 의미의 풍부함과 공간적 세부 정보를 어떻게 균형 있게 조율할 수 있는가?
- RQ2추가 애너테이션 없이도 자기지도 학습 세그멘테이션 브랜치가 특징 학습에 기여할 수 있는가?
- RQ3세그멘테이션 지도 신호를 통합함으로써 WIDER FACE와 같은 도전적인 얼굴 검출 벤치마크에서 성능 향상은 어느 정도 이루어지는가?
- RQ4최신 단일 스텝 얼굴 검출기들과 비교했을 때 제안된 방법은 정확도와 속도 측면에서 어떻게 성능을 내는가?
주요 결과
- ResNet-50을 백본으로 사용할 경우, WIDER FACE 검증 세트의 Easy, Medium, Hard 서브셋에서 각각 95.6%, 94.7%, 89.8%의 mAP를 달성하여 SOTA 성능을 확보한다.
- ResNet-101을 백본으로 사용할 경우, 96.9% (Easy), 95.9% (Medium), 91.2% (Hard)의 mAP를 기록하여 강력한 확장성 잠재력을 입증한다.
- PyramidBox 대비 Hard 서브셋에서 +0.9% 향상된 성능을 기록하여, 가림 및 척도 변화에 대한 강건성 향상이 뚜렷하다.
- 최적의 세그멘테이션 손실 가중치는 λ₂ = 0.05로 확인되었으며, 다른 값들에서도 성능 저하가 최소화되어 안정적인 학습이 가능함을 시사한다.
- 640×512 입력에서 Tesla P40 GPU에서 26.45 FPS의 실시간 추론 속도를 유지함으로써, 추가 구성 요소가 있음에도 불구하고 효율성이 확보됨을 입증한다.
- 제거 실험 결과, 주의 기반 융합과 세그멘테이션 브랜치 모두 성능 향상에 독립적으로 기여하며, 특히 어려운 케이스에서 세그멘테이션 브랜치의 기여가 두드러진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.