[论文解读] Thickened 2D Networks for Efficient 3D Medical Image Segmentation
本文提出厚化二维网络(T2D),通过多切片输入增强二维分割网络,以捕捉三维上下文信息,采用早期阶段多路复用和切片敏感注意力机制,减轻信息丢失。该方法在腹部血管分割任务上达到最先进性能,且推理延迟低于三维网络。
There has been a debate in 3D medical image segmentation on whether to use 2D or 3D networks, where both pipelines have advantages and disadvantages. 2D methods enjoy a low inference time and greater transfer-ability while 3D methods are superior in performance for hard targets requiring contextual information. This paper investigates efficient 3D segmentation from another perspective, which uses 2D networks to mimic 3D segmentation. To compensate the lack of contextual information in 2D manner, we propose to thicken the 2D network inputs by feeding multiple slices as multiple channels into 2D networks and thus 3D contextual information is incorporated. We also put forward to use early-stage multiplexing and slice sensitive attention to solve the confusion problem of information loss which occurs when 2D networks face thickened inputs. With this design, we achieve a higher performance while maintaining a lower inference latency on a few abdominal organs from CT scans, in particular when the organ has a peculiar 3D shape and thus strongly requires contextual information, demonstrating our method's effectiveness and ability in capturing 3D information. We also point out that "thickened" 2D inputs pave a new method of 3D segmentation, and look forward to more efforts in this direction. Experiments on segmenting a few abdominal targets in particular blood vessels which require strong 3D contexts demonstrate the advantages of our approach.
研究动机与目标
- 解决三维医学图像分割中二维与三维网络之间的权衡问题,其中二维方法速度快但缺乏三维上下文,而三维方法准确但速度慢。
- 通过在不造成信息丢失的情况下增加输入切片厚度,使二维网络有效捕捉三维上下文信息。
- 克服标准二维网络中多切片输入过早融合导致的性能下降问题。
- 设计一种轻量化、高效且准确的分割框架,在保持高推理速度的同时提升对血管等复杂三维结构的性能表现。
- 证明厚化二维网络在具有挑战性的解剖目标分割中,可超越标准二维和三维网络的分割精度。
提出的方法
- 通过将多个连续切片堆叠作为输入通道,使用厚化二维输入,使二维主干网络在训练和推理过程中均能感知三维上下文。
- 早期阶段多路复用(ESM)通过在主干网络早期阶段独立处理切片小组合,延迟特征融合,直至后续层才合并特征。
- 在特征融合前与决策阶段之间引入切片敏感注意力(SSA),通过关注切片特异性特征增强判别能力。
- 网络采用端到端训练,使用标准交叉熵损失,基于腹部CT扫描数据集通过Dice分数(DSC)进行评估。
- 推理通过沿单一轴滑动二维网络实现,高效生成三维预测结果,无需使用三维滑动窗口。
- 该方法在私有腹部器官数据集及公开的医学分割十项全能(MSD)数据集上进行评估,用于肝血管分割任务。
实验结果
研究问题
- RQ1二维网络能否通过将多个堆叠切片作为输入通道,有效学习三维上下文信息?
- RQ2在二维网络中增加堆叠切片数量时,性能下降的原因是什么?
- RQ3早期阶段多路复用与切片敏感注意力是否能缓解厚化二维输入中的信息丢失?
- RQ4所提方法是否在保持低推理延迟的同时,实现高于二维和三维基线模型的分割精度?
- RQ5随着输入切片厚度的增加,性能如何变化?
主要发现
- 所提出的T2D方法结合早期阶段多路复用与切片敏感注意力,在15切片输入下于上腔静脉(superior m. a.)上达到74.55%的Dice分数,优于基线二维与三维模型。
- 性能随切片厚度增加至15张切片而提升,在上腔静脉处达到峰值74.55%,超过18张切片后因训练不稳定性而下降。
- 轴向模型在切片输入从6张增至9张时,性能提升2.17%,表明特征学习存在关键瓶颈。
- 在MSD数据集的肝血管分割任务中,该方法优于基线DeepLab及其他三维模型,取得更优的Dice分数。
- 三维可视化结果表明,该方法能更好地保持血管连续性,并准确预测细小、复杂的结构(如分叉与狭窄处)。
- 与三维滑动窗口方法相比,该方法在保持或提升分割精度的同时,显著降低了推理延迟。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。