QUICK REVIEW

[論文レビュー] Thickened 2D Networks for Efficient 3D Medical Image Segmentation

Qihang Yu, Yingda Xia|arXiv (Cornell University)|Apr 2, 2019

Advanced Neural Network Applications参考文献 44被引用数 28

ひとこと要約

本稿では、3次元的文脈情報を捉えるために複数スライス入力を用いる2次元セグメンテーションネットワークを強化するための「厚化2次元ネットワーク（T2D）」を提案する。早期段階でのマルチプレクシングとスライスに敏感なアテンションを用いることで、情報損失を軽減する。本手法は、3次元ネットワークよりも低い推論遅延で、腹部血管セグメンテーションにおいて最先端の性能を達成する。

ABSTRACT

There has been a debate in 3D medical image segmentation on whether to use 2D or 3D networks, where both pipelines have advantages and disadvantages. 2D methods enjoy a low inference time and greater transfer-ability while 3D methods are superior in performance for hard targets requiring contextual information. This paper investigates efficient 3D segmentation from another perspective, which uses 2D networks to mimic 3D segmentation. To compensate the lack of contextual information in 2D manner, we propose to thicken the 2D network inputs by feeding multiple slices as multiple channels into 2D networks and thus 3D contextual information is incorporated. We also put forward to use early-stage multiplexing and slice sensitive attention to solve the confusion problem of information loss which occurs when 2D networks face thickened inputs. With this design, we achieve a higher performance while maintaining a lower inference latency on a few abdominal organs from CT scans, in particular when the organ has a peculiar 3D shape and thus strongly requires contextual information, demonstrating our method's effectiveness and ability in capturing 3D information. We also point out that "thickened" 2D inputs pave a new method of 3D segmentation, and look forward to more efforts in this direction. Experiments on segmenting a few abdominal targets in particular blood vessels which require strong 3D contexts demonstrate the advantages of our approach.

研究の動機と目的

2次元と3次元ネットワークのトレードオフを解消すること。2次元手法は高速だが3次元的文脈を欠くのに対し、3次元手法は正確だが遅い。
2次元ネットワークが、情報損失を被ることなく、複数スライスを入力チャネルとして厚くすることで、3次元的文脈情報を効果的に捉えられるようにすること。
標準的な2次元ネットワークにおける複数スライス入力の早期融合が引き起こす性能劣化を克服すること。
複雑な3次元構造（例：血管）において、高い推論速度を維持しながら、高精度かつ軽量で効率的なセグメンテーションフレームワークを設計すること。
厚化2次元ネットワークが、挑戦的な解剖的ターゲットにおいて、標準2次元および3次元ネットワークを上回るセグメンテーション精度を達成できることを示すこと。

提案手法

2次元バックボーンが学習および推論の両段階で3次元的文脈を認識できるように、連続する複数スライスを入力チャネルとしてスタックすることで、厚化2次元入力を実現する。
早期段階マルチプレクシング（ESM）は、特徴の融合を遅らせる。バックボーンの最初の部分を、スライスの小グループごとに別々に適用し、後続のレイヤーで特徴を統合する。
スライスに敏感なアテンション（SSA）は、融合前段階と意思決定段階の間に導入され、スライス固有の特徴に注目することで、識別能を向上させる。
ネットワークは標準的な交差エントロピー損失を用いて端末から端末まで訓練され、腹部CTスキャン上でDiceスコア（DSC）を用いて評価される。
推論は、1つの軸に沿って2次元ネットワークをスライドさせることで実行され、3次元スライディングウィンドウを用いない効率的な3次元予測を生成する。
本手法は、プライベートな腹部臓器データセットおよび公的医療画像セグメンテーションデカールト（MSD）を用いて、肝臓血管セグメンテーションのタスクで評価される。

実験結果

リサーチクエスチョン

RQ12次元ネットワークが、複数のスタックされたスライスを入力チャネルとして処理することで、3次元的文脈情報を効果的に学習できるか？
RQ22次元ネットワークにおけるスタックスライス数の増加が性能劣化を引き起こす原因は何か？
RQ3早期段階マルチプレクシングとスライスに敏感なアテンションは、厚化2次元入力における情報損失を軽減できるか？
RQ4提案手法は、2次元および3次元ベースラインと比較して、より高いセグメンテーション精度を達成するか、かつ低い推論遅延を維持できるか？
RQ5入力のスライス厚さを増加させた場合、性能はどのようにスケーリングするか？

主な発見

早期段階マルチプレクシングとスライスに敏感なアテンションを備えたT2D手法は、15スライス入力で上行性迷走神経（superior m. a.）において74.55%のDiceスコアを達成し、ベースライン2次元および3次元モデルを上回る。
スライス厚さが15スライスまで増加すると性能が向上し、上行性迷走神経でピークの74.55%に達するが、18スライスを超えるとトレーニングの不安定性により性能が低下する。
軸方向モデルでは、6スライスから9スライスに増加させた際、2.17%の向上を示し、特徴学習における主要なボトルネックを示している。
MSDデータセットにおける肝臓血管セグメンテーションタスクにおいて、本手法はベースラインDeepLabおよび他の3次元モデルと比較して優れたDiceスコアを達成する。
3次元可視化により、本手法が血管の連続性をよりよく保持し、分岐部や狭窄部など細く複雑な構造を正確に予測できることを確認した。
3次元スライディングウィンドウ手法と比較して、推論遅延を低減しながら、セグメンテーション精度を維持または向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。