[論文レビュー] GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation
GRAFNetはGuided Asymmetric Attention、Multiscale Retinal Modules、Guided Cortical Attention Feedbackを用いた生物学的に着想を得たアーキテクチャを導入し、ポリープセグメンテーションを強化。5つのベンチマークで最先端の結果と良好な一般化を達成。
Accurate polyp segmentation in colonoscopy is essential for cancer prevention but remains challenging due to: (1) high morphological variability (from flat to protruding lesions), (2) strong visual similarity to normal structures such as folds and vessels, and (3) the need for robust multi-scale detection. Existing deep learning approaches suffer from unidirectional processing, weak multi-scale fusion, and the absence of anatomical constraints, often leading to false positives (over-segmentation of normal structures) and false negatives (missed subtle flat lesions). We propose GRAFNet, a biologically inspired architecture that emulates the hierarchical organisation of the human visual system. GRAFNet integrates three key modules: (1) a Guided Asymmetric Attention Module (GAAM) that mimics orientation-tuned cortical neurones to emphasise polyp boundaries, (2) a MultiScale Retinal Module (MSRM) that replicates retinal ganglion cell pathways for parallel multi-feature analysis, and (3) a Guided Cortical Attention Feedback Module (GCAFM) that applies predictive coding for iterative refinement. These are unified in a Polyp Encoder-Decoder Module (PEDM) that enforces spatial-semantic consistency via resolution-adaptive feedback. Extensive experiments on five public benchmarks (Kvasir-SEG, CVC-300, CVC-ColonDB, CVC-Clinic, and PolypGen) demonstrate consistent state-of-the-art performance, with 3-8% Dice improvements and 10-20% higher generalisation over leading methods, while offering interpretable decision pathways. This work establishes a paradigm in which neural computation principles bridge the gap between AI accuracy and clinically trustworthy reasoning. Code is available at https://github.com/afofanah/GRAFNet.
研究の動機と目的
- 大腸内視鏡検査における多様な形態や画像条件下での正確なポリプセグメンテーションの動機づけ。
- 網膜経路を皮質フィードバックと統合する生物学的に妥当なアーキテクチャの開発。
- 解像度適応型フィードバックを備えたエンコーダ–デコーダを通じた空間–意味的一貫性の強制。
- アテンション主導のフィードバック駆動処理による解釈可能な意思決定経路の提供。
提案手法
- Boundaryを強調するアテンションのための方向性チューニングV1ニューロンを模倣するGAAMの導入。
- 多特徴解析のための網膜平行経路(錐体経路、杆体経路、コニオ胞、ON–OFF)を再現するMSRMの実装。
- 予測符号化を適用し高次解剖学的 priors で特徴を洗練するGCAFMの追加。
- 階層的で解像度適応型のフィードバック調整を行うPolyp Encoder–Decoder Module (PEDM)の埋め込み。
- セグメンテーション損失とフィードバックの一貫性およびアテンションガイダンス項を組み合わせた生体風損失LBIOで学習。
実験結果
リサーチクエスチョン
- RQ1RQ1: 皮質フィードバックは従来の注意機構および最先端手法と比較してセグメンテーション性能を改善するか。
- RQ2RQ2: 多尺度網膜経路は正常解剖に対する偽陽性を低減するか。
- RQ3RQ3: 非対称(方向性チューニング)アテンションは微細な平坦病変の検出を助けるか。
- RQ4RQ4: 導かれたフィードバックはスケール間でのアテンションの漂移を防ぐか。
- RQ5RQ5: 各生物学的モジュールが性能にどのように寄与するか(アブレーション)。
- RQ6RQ6: ニューロ生物学的設計はデータセット横断の一般化を改善するか。
主な発見
- GRAFNetは5データセットで最先端のセグメンテーションを達成し、Diceの改善は3–8%、一般化は先行手法より10–20%高い。
- CVC-ClinicDBおよびKvasir-SEGでDiceスコアはそれぞれ0.9290および0.9146に達し、BF1は約0.9090および0.9163。
- CVC-ColonDB、CVC-300では複数の指標で最高またはほぼ最高のスコアを達成し、Diceは一部比較で0.9461まで。
- アブレーションによりMSRMが最初に大きな利得を示し、続いてGAAMとGCAFMが寄与し、最終的な全体のGRAFNetがClinicDB/Kvasir-SEGでDice0.9425、CVC-ColonDB/CVC-300でそれぞれ0.9461/0.8896を達成。
- GRAFNetは正常解剖で偽陽性を低減(FPR低下とNPVの向上)し、スケール横断でのアテンション安定性が高い(AC/SCスコア高)。
- 微細な平坦病変と小さなポリープは非対称アテンションの恩恵を受け、平坦病変 (<3 mm) および微細病変(3–5 mm)カテゴリーでDiceの利得が一貫して見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。