[論文レビュー] Automatic Polyp Segmentation via Multi-scale Subtraction Network
MSNetは、ポリープセグメンテーションのためにクロスレベル差分特徴を抽出する多尺度の引き算モジュールを導入するとともに、ディテールから構造への監視を行うトレーニング不要のLossNetを追加し、最先端の結果とリアルタイム速度(約70fps)を実現します。
More than 90\% of colorectal cancer is gradually transformed from colorectal polyps. In clinical practice, precise polyp segmentation provides important information in the early detection of colorectal cancer. Therefore, automatic polyp segmentation techniques are of great importance for both patients and doctors. Most existing methods are based on U-shape structure and use element-wise addition or concatenation to fuse different level features progressively in decoder. However, both the two operations easily generate plenty of redundant information, which will weaken the complementarity between different level features, resulting in inaccurate localization and blurred edges of polyps. To address this challenge, we propose a multi-scale subtraction network (MSNet) to segment polyp from colonoscopy image. Specifically, we first design a subtraction unit (SU) to produce the difference features between adjacent levels in encoder. Then, we pyramidally equip the SUs at different levels with varying receptive fields, thereby obtaining rich multi-scale difference information. In addition, we build a training-free network "LossNet" to comprehensively supervise the polyp-aware features from bottom layer to top layer, which drives the MSNet to capture the detailed and structural cues simultaneously. Extensive experiments on five benchmark datasets demonstrate that our MSNet performs favorably against most state-of-the-art methods under different evaluation metrics. Furthermore, MSNet runs at a real-time speed of $\sim$70fps when processing a $352 imes 352$ image. The source code will be publicly available at \url{https://github.com/Xiaoqi-Zhao-DLUT/MSNet}. \keywords{Colorectal Cancer \and Automatic Polyp Segmentation \and Subtraction \and LossNet.}
研究の動機と目的
- 大腸直腸がんの早期発見のための自動で正確なポリープセグメンテーションを動機づける。
- U字型ネットワークにおける単純な特徴融合によるエッジのぼけと局在化の問題を克服する。
- クロスレベルの補完性を最大化するため、引き算ベースの多尺度アーキテクチャを提案する。
- ディテールから構造への特徴を監視するトレーニング不要のLossNetを導入する。
提案手法
- 隣接するエンコーダ特徴間でConv(|F_A ⊖ F_B|)を計算する引き算ユニット(SU)を定義する。
- 多尺度のクロスレベル差分情報を捉えるために、ピラミダルにSUを積み重ねる。
- レベル特定およびクロスレベル差分特徴を統合し、各エンコーダレベルに対して補完性強化特徴CE^iを作成する。
- CE^i特徴を統合するデコーダを用いてポリープセグメンテーションを生成する。
- 複数レベルでの多尺度L2損失L_fを用いて予測とグラウンドトゥルース特徴を監視するトレーニング不要ネットワーク(例: VGG-16特徴)LossNetを導入する。
- L_fを重み付きIoUおよび重み付きBCE損失と結合して最終訓練目的関数L_total = L_IoU^w + L_BCE^w + L_fとする。
実験結果
リサーチクエスチョン
- RQ1引き算ベースの多尺度融合は、加算/連結ベースの融合よりもポリープの境界と局在を良く保持できるか。
- RQ2クロスレベル差分情報は、サイズや形状の異なるポリープのセグメンテーションを改善するか。
- RQ3トレーニング不要のLossNetは、特徴レベル全体でディテールから構造への情報を効果的に監督できるか。
- RQ4標準的なポリープセグメンテーションベンチマークにおけるMSNetの性能と速度の向上はどれくらいか。
主な発見
| 手法 | mDice | mIoU | Fβ^w | Sα | Eφ^max | MAE |
|---|---|---|---|---|---|---|
| ColonDB U-Net | 0.519 | 0.449 | 0.498 | 0.711 | 0.763 | 0.061 |
| ColonDB U-Net++ | 0.490 | 0.413 | 0.467 | 0.691 | 0.762 | 0.064 |
| ColonDB SFA | 0.467 | 0.351 | 0.379 | 0.634 | 0.648 | 0.094 |
| ColonDB PraNet | 0.716 | 0.645 | 0.699 | 0.820 | 0.847 | 0.043 |
| ColonDB MSNet | 0.755 | 0.678 | 0.737 | 0.836 | 0.883 | 0.041 |
| ETIS U-Net | 0.406 | 0.343 | 0.366 | 0.682 | 0.645 | 0.036 |
| ETIS U-Net++ | 0.413 | 0.342 | 0.390 | 0.681 | 0.704 | 0.035 |
| ETIS SFA | 0.297 | 0.219 | 0.231 | 0.557 | 0.515 | 0.109 |
| ETIS PraNet | 0.630 | 0.576 | 0.600 | 0.791 | 0.792 | 0.031 |
| ETIS MSNet | 0.719 | 0.664 | 0.678 | 0.840 | 0.830 | 0.020 |
| Kvasir U-Net | 0.821 | 0.756 | 0.794 | 0.858 | 0.901 | 0.055 |
| Kvasir U-Net++ | 0.824 | 0.753 | 0.808 | 0.862 | 0.907 | 0.048 |
| Kvasir SFA | 0.725 | 0.619 | 0.670 | 0.782 | 0.828 | 0.075 |
| Kvasir PraNet | 0.901 | 0.848 | 0.885 | 0.915 | 0.943 | 0.030 |
| Kvasir MSNet | 0.907 | 0.862 | 0.893 | 0.922 | 0.944 | 0.028 |
| CVC-T U-Net | 0.717 | 0.639 | 0.684 | 0.842 | 0.867 | 0.022 |
| CVC-T U-Net++ | 0.714 | 0.636 | 0.687 | 0.838 | 0.884 | 0.018 |
| CVC-T SFA | 0.465 | 0.332 | 0.341 | 0.640 | 0.604 | 0.065 |
| CVC-T PraNet | 0.873 | 0.804 | 0.843 | 0.924 | 0.938 | 0.010 |
| CVC-T MSNet | 0.869 | 0.807 | 0.849 | 0.925 | 0.943 | 0.010 |
| ClinicDB U-Net | 0.824 | 0.767 | 0.811 | 0.889 | 0.917 | 0.019 |
| ClinicDB U-Net++ | 0.797 | 0.741 | 0.785 | 0.872 | 0.898 | 0.022 |
| ClinicDB SFA | 0.698 | 0.615 | 0.647 | 0.793 | 0.816 | 0.042 |
| ClinicDB PraNet | 0.902 | 0.858 | 0.896 | 0.935 | 0.958 | 0.009 |
| ClinicDB MSNet | 0.921 | 0.879 | 0.914 | 0.941 | 0.972 | 0.008 |
- MSNetは5つのデータセットで6指標においてU-Net、U-Net++、SFA、PraNetを上回る。
- ColonDBでは、MSNetは mDice 0.755、mIoU 0.678、Fβ^w 0.737、Sα 0.836、Eφ^max 0.883、MAE 0.041 を達成。
- ETISでは、MSNetは mDice 0.719、mIoU 0.664、Fβ^w 0.678、Sα 0.840、Eφ^max 0.830、MAE 0.020。
- Kvasirでは、MSNetは mDice 0.907、mIoU 0.862、Fβ^w 0.893、Sα 0.922、Eφ^max 0.944、MAE 0.028。
- CVC-Tでは、MSNetは mDice 0.869、mIoU 0.807、Fβ^w 0.849、Sα 0.925、Eφ^max 0.943、MAE 0.010。
- ClinicDBでは、MSNetは mDice 0.921、mIoU 0.879、Fβ^w 0.914、Sα 0.941、Eφ^max 0.972、MAE 0.008。
- MSNetは352×352画像で約70fpsで動作し、報告されたポリープセグメンテーション手法の中で最速である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。