[논문 리뷰] SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts
SemCovNet은 의미 체_descriptor를 고려한 학습을 도입하여 시맨틱 커버리지 불균형(SCI)을 시맨틱 디스크립터 의미를 시각 특징과 맞추고 CDI 정규화를 사용해 디스크립터 그룹 간 시맨틱 공정성을 촉진합니다.
Modern vision models increasingly rely on rich semantic representations that extend beyond class labels to include descriptive concepts and contextual attributes. However, existing datasets exhibit Semantic Coverage Imbalance (SCI), a previously overlooked bias arising from the long-tailed semantic representations. Unlike class imbalance, SCI occurs at the semantic level, affecting how models learn and reason about rare yet meaningful semantics. To mitigate SCI, we propose Semantic Coverage-Aware Network (SemCovNet), a novel model that explicitly learns to correct semantic coverage disparities. SemCovNet integrates a Semantic Descriptor Map (SDM) for learning semantic representations, a Descriptor Attention Modulation (DAM) module that dynamically weights visual and concept features, and a Descriptor-Visual Alignment (DVA) loss that aligns visual features with descriptor semantics. We quantify semantic fairness using a Coverage Disparity Index (CDI), which measures the alignment between coverage and error. Extensive experiments across multiple datasets demonstrate that SemCovNet enhances model reliability and substantially reduces CDI, achieving fairer and more equitable performance. This work establishes SCI as a measurable and correctable bias, providing a foundation for advancing semantic fairness and interpretable vision learning.
연구 동기 및 목표
- Semantic Coverage Imbalance(SCI)를 클래스 내부 및 간의 시맨틱 디스크립터 표현 편향으로 정의합니다.
- Semantic Descriptor Map(SDM), Descriptor Attention Modulation(DAM), 및 Descriptor–Visual Alignment(DVA)을 갖춘 SemCovNet를 제안합니다.
- 시맨틱 공정성을 위한 척도 및 정규화로 Coverage Disparity Index(CDI)를 도입합니다.
- 의료 영상 데이터셋에서 CDI를 감소시키고 신뢰성을 향상시킨 것을 demonstrat합니다.
- 균형 잡힌 클래스 분포에서도 디스크립터 수준의 공정성 이점을 보입니다.]
- method:[
- Build a Semantic Descriptor Map (SDM) that fuses descriptor priors with visual features to create descriptor-specific spatial attention maps.
- Use Cross-Attention between descriptor tokens and image patch tokens to refine descriptor representations in a closed loop.
- Apply Descriptor Attention Modulation (DAM) to inject descriptor priors into visual features via channel-wise and spatial gating with uncertainty-aware modulation.
- Introduce Descriptor–Visual Alignment (DVA) using a contrastive loss to align visual features with descriptor embeddings.
- Regularize training with CDI to decorrelate descriptor coverage from error and promote semantic fairness.
- Train with a joint objective combining classification loss, descriptor reconstruction loss, DVA contrastive loss, and CDI regularization.
제안 방법
- 시맨틱 디스크립터 우선 정보를 시각 특성과 융합하여 디스크립터별 공간 주의 맵을 생성하는 Semantic Descriptor Map(SDM) 구축.
- 디스크립터 토큰과 이미지 패치 토큰 간의 교차 어텐션을 사용하여 디스크립터 표현을 닫힌 루프에서 정제합니다.
- 채널별 및 공간 게이팅과 불확실성 인식을 활용한 조정으로 시맨틱 디스크립터 정보를 시각 특징에 주입하는 Descriptor Attention Modulation(DAM) 적용.
- 대조적 손실을 사용한 Descriptor–Visual Alignment(DVA)를 도입하여 시각 특징을 디스크립터 임베딩과 정렬합니다.
- 오류에서 디스크립터 커버리지를 상관관계에서 분리하고 시맨틱 공정성을 촉진하기 위해 CDI로 학습을 정규화합니다.
- 분류 손실, 디스크립터 재구성 손실, DVA 대조 손실, CDI 정규화를 결합한 공동 목표로 학습합니다.
실험 결과
연구 질문
- RQ1Semantic Coverage Imbalance(SCI)가 무엇이며 저대표 디스크립터 학습에 어떤 영향을 미치는가?
- RQ2디스크립터 인식 아키텍처가 커버리지-오류 불일치를 줄이고 시맨틱 공정성을 향상시킬 수 있는가?
- RQ3CDI 정규화가 데이터셋 간 시맨틱 커버리지 그룹 간 보다 균일한 성능을 내는가?
- RQ4SDM/DAM/DVA가 디스크립터–시각 정렬 및 모델 신뢰도에How 기여하는가?
- RQ5SemCovNet는 불균형 및 균형 클래스 분포와 모달리티 간에도 강건한가?
주요 결과
| 모델 | Dermoscopic AUC | Dermoscopic PRA | Dermoscopic S@95 | Dermoscopic BAcc | Dermoscopic M-F1 | Dermoscopic ECE | Clinical AUC | Clinical PRA | Clinical S@95 | Clinical BAcc | Clinical M-F1 | Clinical ECE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ENet-B0 | 0.9114 | 0.5763 | 0.5778 | 0.7503 | 0.7490 | 0.0386 | 0.9151 | 0.5459 | 0.5222 | 0.6345 | 0.6714 | 0.0096 |
| ViT | 0.9032 | 0.4852 | 0.4000 | 0.6701 | 0.6887 | 0.0400 | 0.8839 | 0.4146 | 0.3667 | 0.5686 | 0.5970 | 0.0219 |
| ENet-B0+CBL | 0.9091 | 0.5662 | 0.5556 | 0.7392 | 0.7404 | 0.0203 | 0.9087 | 0.5245 | 0.4778 | 0.7350 | 0.7270 | 0.0351 |
| ENet-B0+ASL | 0.7201 | 0.2670 | 0.2889 | 0.5493 | 0.5661 | 0.0675 | 0.6128 | 0.1243 | 0.0667 | 0.5614 | 0.5608 | 0.0567 |
| GroupDRO | 0.8733 | 0.4913 | 0.4889 | 0.7582 | 0.6806 | 0.0352 | 0.8658 | 0.3921 | 0.4111 | 0.8116 | 0.6353 | 0.0576 |
| CLIP | 0.9125 | 0.5436 | 0.5556 | 0.6392 | 0.6876 | 0.0219 | 0.8855 | 0.5207 | 0.4778 | 0.6014 | 0.6424 | 0.0162 |
| MONET | 0.9132 | 0.5832 | 0.5778 | 0.7307 | 0.7403 | 0.0128 | 0.9071 | 0.5500 | 0.5778 | 0.6236 | 0.6711 | 0.0230 |
| SemCovNet (ours) | 0.9049 | 0.5991 | 0.6222 | 0.7874 | 0.7573 | 0.0174 | 0.9028 | 0.5698 | 0.5900 | 0.6986 | 0.7305 | 0.0759 |
- SemCovNet은 CDI를 낮추어 시맨틱 그룹 간 커버리지-오류 불일치를 줄임을 시사합니다.
- MILK10k에서 SemCovNet은 Calibrated한 상태를 유지하면서 Sens.@95%Spec 및 Macro-F1을 향상시키고, 기초 모델 중 CDI 전체에서 최고를 달성합니다.
- ISIC-DICM-17K(균형 데이터셋)에서도 SemCovNet은 디스크립터 수준의 공정성 및 민감도에서 여전히 기초 모델을 능가합니다.
- 하이브리드_SD M과 게이티드 융합의 Ablation 연구에서 가장 좋은 정확도-공정성 트레이드오프를 제공합니다.
- SDM과 DVA를 결합한 경우( SDM+DVA)에서 디스크립터 접지 및 꼬리 성능이 Visual-전용 기초 대비 크게 향상됩니다.
- 학습 중 CDI 정규화가 CDI를 0으로 수렴하게 하여 효과적인 공정성 최적화를 입증합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.