[論文レビュー] SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts
SemCovNetは記述子の意味論的セマンティクスと視覚特徴を整合させ、 CDI正則化を用いて意味的公正性を促進することにより、Semantic Coverage Imbalance(SCI)に対処する。
Modern vision models increasingly rely on rich semantic representations that extend beyond class labels to include descriptive concepts and contextual attributes. However, existing datasets exhibit Semantic Coverage Imbalance (SCI), a previously overlooked bias arising from the long-tailed semantic representations. Unlike class imbalance, SCI occurs at the semantic level, affecting how models learn and reason about rare yet meaningful semantics. To mitigate SCI, we propose Semantic Coverage-Aware Network (SemCovNet), a novel model that explicitly learns to correct semantic coverage disparities. SemCovNet integrates a Semantic Descriptor Map (SDM) for learning semantic representations, a Descriptor Attention Modulation (DAM) module that dynamically weights visual and concept features, and a Descriptor-Visual Alignment (DVA) loss that aligns visual features with descriptor semantics. We quantify semantic fairness using a Coverage Disparity Index (CDI), which measures the alignment between coverage and error. Extensive experiments across multiple datasets demonstrate that SemCovNet enhances model reliability and substantially reduces CDI, achieving fairer and more equitable performance. This work establishes SCI as a measurable and correctable bias, providing a foundation for advancing semantic fairness and interpretable vision learning.
研究の動機と目的
- Semantic Coverage Imbalance (SCI)を、クラス内およびクラス間の意味記述子表現のバイアスとしてDefineする。
- Semantic Descriptor Map (SDM)、Descriptor Attention Modulation (DAM)、Descriptor–Visual Alignment (DVA)を用いたSemCovNetを提案する。
- Coverage Disparity Index (CDI)を意味的公正性の指標および正則化として導入する。
- 皮膚科および医用画像データセットでCDIの低下と信頼性の改善を示す。
- バランスの取れたクラス分布下でも記述子レベルの公正性利点を示す。
提案手法
- Descriptor priorsと視覚特徴を融合させて descriptor-specificな空間注意マップを作成するSemantic Descriptor Map (SDM)を構築する。
- Descriptor tokensと画像パッチ tokens間のCross-Attentionを用いて記述子表現をクローズドループで洗練させる。
- Descriptor priorsを視覚特徴へ注入するためにchannel-wiseおよび空間ゲーティングと不確実性認識モジュレーションを用いたDescriptor Attention Modulation (DAM)を適用する。
- コントラスト損失を用いて視覚特徴と記述子埋め込みを整合させるDescriptor–Visual Alignment (DVA)を導入する。
- 記述子のカバレッジと誤差をデコレレートし、意味的公正性を促進するCDI正則化を導入する。
- 分類損失、記述子再構成損失、DVA対比損失、CDI正則化を結合した joint objectiveで学習する。
実験結果
リサーチクエスチョン
- RQ1Semantic Coverage Imbalance (SCI)とは何か、そしてそれが過少表現ディスクリプタの学習にどう影響するのか。
- RQ2記述子認識アーキテクチャはカバレージ–誤差のミスマッチを低減し、意味的公正性を改善できるか。
- RQ3CDI正則化はデータセット間で意味カバレージグループごとの性能をより均一にするか。
- RQ4SDM/DAM/DVAは記述子–視覚整合性とモデルの信頼性にどう寄与するか。
- RQ5SemCovNetは不均衡なクラス分布でも、バランスの取れたクラス分布やモダリティを跨いでロバストか。
主な発見
| Model | Dermoscopic AUC | Dermoscopic PRA | Dermoscopic S@95 | Dermoscopic BAcc | Dermoscopic M-F1 | Dermoscopic ECE | Clinical AUC | Clinical PRA | Clinical S@95 | Clinical BAcc | Clinical M-F1 | Clinical ECE |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ENet-B0 | 0.9114 | 0.5763 | 0.5778 | 0.7503 | 0.7490 | 0.0386 | 0.9151 | 0.5459 | 0.5222 | 0.6345 | 0.6714 | 0.0096 |
| ViT | 0.9032 | 0.4852 | 0.4000 | 0.6701 | 0.6887 | 0.0400 | 0.8839 | 0.4146 | 0.3667 | 0.5686 | 0.5970 | 0.0219 |
| ENet-B0+CBL | 0.9091 | 0.5662 | 0.5556 | 0.7392 | 0.7404 | 0.0203 | 0.9087 | 0.5245 | 0.4778 | 0.7350 | 0.7270 | 0.0351 |
| ENet-B0+ASL | 0.7201 | 0.2670 | 0.2889 | 0.5493 | 0.5661 | 0.0675 | 0.6128 | 0.1243 | 0.0667 | 0.5614 | 0.5608 | 0.0567 |
| GroupDRO | 0.8733 | 0.4913 | 0.4889 | 0.7582 | 0.6806 | 0.0352 | 0.8658 | 0.3921 | 0.4111 | 0.8116 | 0.6353 | 0.0576 |
| CLIP | 0.9125 | 0.5436 | 0.5556 | 0.6392 | 0.6876 | 0.0219 | 0.8855 | 0.5207 | 0.4778 | 0.6014 | 0.6424 | 0.0162 |
| MONET | 0.9132 | 0.5832 | 0.5778 | 0.7307 | 0.7403 | 0.0128 | 0.9071 | 0.5500 | 0.5778 | 0.6236 | 0.6711 | 0.0230 |
| SemCovNet (ours) | 0.9049 | 0.5991 | 0.6222 | 0.7874 | 0.7573 | 0.0174 | 0.9028 | 0.5698 | 0.5900 | 0.6986 | 0.7305 | 0.0759 |
- SemCovNetはCDIを低下させ、意味グループ間のカバレージ–誤差の不整合を減らすことを示す。
- MILK10kでSemCovNetはSens.@95%SpecとMacro-F1を改善し、ECEを維持し、基準の中で最良のCDIを達成。
- ISIC-DICM-17K(バランスあり)でもSemCovNetはディスクリプションレベルの公正性と感度で基準を上回る。
- アブレーション研究でHybrid_SD Mとゲート付きフュージョンが精度と公正性の最良トレードオフを提供。
- SDMとDVAを組み合わせたSDM+DVAは、視覚的ベースラインと比較して記述子のグラウンディングと尾部性能を有意に改善。
- トレーニング中にCDI正則化を有効にするとCDIが0に近づく減衰を示し、公正性最適化が効果的であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。