Skip to main content
QUICK REVIEW

[論文レビュー] Polyp Segmentation Using Wavelet-Based Cross-Band Integration for Enhanced Boundary Representation

Haesung Oh, Jaesung Lee|arXiv (Cornell University)|Mar 4, 2026
Colorectal Cancer Screening and Detection被引用数 0
ひとこと要約

デュアルエンコーダーのポリープセグメンテーションモデルが、グレースケールとRGB特徴をウェーブレット整合化クロスバンド相互作用で統合し、4つのベンチマークにおいて境界精度を向上させる。

ABSTRACT

Accurate polyp segmentation is essential for early colorectal cancer detection, yet achieving reliable boundary localization remains challenging due to low mucosal contrast, uneven illumination, and color similarity between polyps and surrounding tissue. Conventional methods relying solely on RGB information often struggle to delineate precise boundaries due to weak contrast and ambiguous structures between polyps and surrounding mucosa. To establish a quantitative foundation for this limitation, we analyzed polyp-background contrast in the wavelet domain, revealing that grayscale representations consistently preserve higher boundary contrast than RGB images across all frequency bands. This finding suggests that boundary cues are more distinctly represented in the grayscale domain than in the color domain. Motivated by this finding, we propose a segmentation model that integrates grayscale and RGB representations through complementary frequency-consistent interaction, enhancing boundary precision while preserving structural coherence. Extensive experiments on four benchmark datasets demonstrate that the proposed approach achieves superior boundary precision and robustness compared to conventional models.

研究の動機と目的

  • 低コントラストと照明変動下でのポリープセグメンテーションにおける境界区分の頑健性の必要性を動機づける。
  • グレースケール表現とRGB表現を比較するウェーブレットドメインの境界手掛かりを調査する。
  • 周波数整合性のある相互作用を通じてグレースケールとRGB特徴を統合するデュアルエンコーダーアーキテクチャを提案する。
  • グレースケールベースの境界手掛かりがRGB構造を精緻化しセグメンテーション精度を向上させることを示す。

提案手法

  • RGBとグレースケール特徴を抽出する2つのRes2Netベースのエンコーダを使用する。
  • 対応するウェーブレットサブバンドで周波数整合性のあるクロスモダリティ相互作用を実現するBand-Specific Window Cross-Attention (BS-WCA)モジュールを導入する。
  • 多尺度特徴を拡張畳み込みで融合するCascade Dilated Fusion (CDF)ブロックを組み込む。
  • Kvasir-SEG、ClinicDB、ColonDB、ETISの4データセットでDiceとIoU指標を用いて訓練・評価する。
  • PyTorchベースの実装設定と再現性の詳細を提供する。
Figure 1: Structural contrast comparison between RGB and grayscale images in the wavelet domain, showing consistently higher contrast for grayscale across all detail sub-bands.
Figure 1: Structural contrast comparison between RGB and grayscale images in the wavelet domain, showing consistently higher contrast for grayscale across all detail sub-bands.

実験結果

リサーチクエスチョン

  • RQ1ウェーブレット整合化クロスバンド相互作用を介してグレースケール境界手掛かりをRGB特徴と統合することは、ポリープセグメンテーションにおける境界精度を向上させるか。
  • RQ2提案するBS-WCAとCDFの設計がデータセット全体で境界精度と全体的なセグメンテーションの一貫性にどのように影響するか。
  • RQ3境界を意識した改善は、RGBのみのベースラインと比較してデータセットのサイズ、照明、コントラストの違いに対して頑健か。

主な発見

MethodsKvasir mDiceKvasir mIoUClinicDB mDiceClinicDB mIoUColonDB mDiceColonDB mIoUETIS mDiceETIS mIoU
Ours0.885 ± 0.0210.822 ± 0.0190.926 ± 0.0140.862 ± 0.0230.913 ± 0.0210.840 ± 0.0420.922 ± 0.0290.821 ± 0.029
  • 提案手法は4データセット全体で平均DiceおよびIoUが複数のベースラインより高い。
  • グレースケール特徴はウェーブレットドメインで境界対比を強化し、境界の精緻化を支援する。
  • 周波数整合性のある相互作用により、高周波のグレースケール詳細がRGB由来の構造を精緻化する。
  • データセットの規模や撮影条件の異なる場合でも安定した性能向上を示す。
  • 実験はBS-WCAとCDFを備えたデュアルエンコーダーアーキテクチャを用い、境界表現の改善を示す。
Figure 2: Proposed wavelet-based cross-band integration framework that fuses frequency-consistent information from RGB and grayscale features for enhanced boundary representation.
Figure 2: Proposed wavelet-based cross-band integration framework that fuses frequency-consistent information from RGB and grayscale features for enhanced boundary representation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。