[論文レビュー] Capsules for Object Segmentation
この論文は SegCaps を紹介する。512x512 画像に対するセグメンテーションを、局所的に制約されたルーティングとデコンボリューションカプセルを用いて、U-Net よりはるかに少ないパラメータで実現する深層畳み込み-デコンボリューションカプセルネットワークである。CT 画像からの病理学的肺セグメンテーションで競争力のある Dice スコアを示す。
Convolutional neural networks (CNNs) have shown remarkable results over the last several years for a wide range of computer vision tasks. A new architecture recently introduced by Sabour et al., referred to as a capsule networks with dynamic routing, has shown great initial results for digit recognition and small image classification. The success of capsule networks lies in their ability to preserve more information about the input by replacing max-pooling layers with convolutional strides and dynamic routing, allowing for preservation of part-whole relationships in the data. This preservation of the input is demonstrated by reconstructing the input from the output capsule vectors. Our work expands the use of capsule networks to the task of object segmentation for the first time in the literature. We extend the idea of convolutional capsules with locally-connected routing and propose the concept of deconvolutional capsules. Further, we extend the masked reconstruction to reconstruct the positive input class. The proposed convolutional-deconvolutional capsule network, called SegCaps, shows strong results for the task of object segmentation with substantial decrease in parameter space. As an example application, we applied the proposed SegCaps to segment pathological lungs from low dose CT scans and compared its accuracy and efficiency with other U-Net-based architectures. SegCaps is able to handle large image sizes (512 x 512) as opposed to baseline capsules (typically less than 32 x 32). The proposed SegCaps reduced the number of parameters of U-Net architecture by 95.4% while still providing a better segmentation accuracy.
研究の動機と目的
- 文献上で初めてカプセルネットワークを物体セグメンテーションへ拡張。
- 局所制約ルーティングと共有変換により伝統的カプセルの memory and parameter explosion に対処。
- デコンボリューションカプセルを導入して大きな画像で深いセグメンテーションアーキテクチャを可能に。
- 正のクラスのマスク付き再構成による正則化損失で入力空間の埋め込みを改善。
- SegCaps を病理学的肺セグメンテーションで示し、U-Net および Tiramisu と比較。
提案手法
- 特徴を保つために最大プーリングを畳み込みストライドとルーティングに置換。
- カーネル内でルーティング係数を計算する局所制約付き動的ルーティングを導入。
- 各カプセルタイプ内で変換行列を共有してパラメータを削減。
- ローカルルーティングでルーティングされる転置畳み込みを用いたデコンボリューションカプセルを追加して深いセグメンテーションを可能に。
- 正のクラスのマスク付き再構成を 3 層の 1x1 畳み込みネットを介したマスク付き MSE で正則化損失として使用。
- LUNA16 subset of LIDC-IDRI の 512x512 CT スライスを用いて四分割交差検証で訓練・評価。
実験結果
リサーチクエスチョン
- RQ1カプセルネットワークは大きな画像サイズ(512x512)でピクセルレベルの物体セグメンテーションに効果的に適用できるか?
- RQ2局所制約ルーティングと共有変換行列はメモリ/パラメータを削減しつつセグメンテーション精度を保つまたは向上させるか?
- RQ3デコンボリューションカプセルとマスク付き再構成を導入すると、U-Net や関連アーキテクチャと比較してセグメンテーション性能は向上するか?
- RQ4CT スキャンにおける病理学的肺セグメンテーションで SegCaps のパフォーマンスは最先端手法と比較してどうか?
主な発見
- SegCaps は 4 折で平均 Dice スコア 98.479% を達成し、U-Net および Tiramisu をわずかに上回る。
- SegCaps は 1.4M パラメータを使用し、パラメータを U-Net と比較して 95.4% 減少、Tiramisu と比較して 38.4% 減少。
- ベースラインの三層カプセルネットワークは深い畳み込み-デコンボリューションアーキテクチャの利点を強調する形で大幅に劣る。
- SegCaps は 512x512 入力で動作し、従来のカプセルモデルは小さな入力(<=32x32)に限定されていたという制限を克服。
- 定性的な結果は SegCaps が CT スライスで U-Net に比べセグメンテーションのリークを減少させることを示す。
- 可視化は最終カプセルベクトルがセグメンテーション領域間で異なるテクスチャ属性を捉えていることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。