[论文解读] TransBTSV2: Towards Better and More Efficient Volumetric Segmentation of Medical Images
TransBTSV2 是一个混合 CNN-Transformer 框架,用于高效的三维医学影像体积分割,其通过更宽、浅层的 Transformer 设计和可变形瓶颈模块(Deformable Bottleneck Module)实现优于先前模型。
Transformer, benefiting from global (long-range) information modeling using self-attention mechanism, has been successful in natural language processing and computer vision recently. Convolutional Neural Networks, capable of capturing local features, are difficult to model explicit long-distance dependencies from global feature space. However, both local and global features are crucial for dense prediction tasks, especially for 3D medical image segmentation. In this paper, we present the further attempt to exploit Transformer in 3D CNN for 3D medical image volumetric segmentation and propose a novel network named TransBTSV2 based on the encoder-decoder structure. Different from TransBTS, the proposed TransBTSV2 is not limited to brain tumor segmentation (BTS) but focuses on general medical image segmentation, providing a stronger and more efficient 3D baseline for volumetric segmentation of medical images. As a hybrid CNN-Transformer architecture, TransBTSV2 can achieve accurate segmentation of medical images without any pre-training, possessing the strong inductive bias as CNNs and powerful global context modeling ability as Transformer. With the proposed insight to redesign the internal structure of Transformer block and the introduced Deformable Bottleneck Module to capture shape-aware local details, a highly efficient architecture is achieved with superior performance. Extensive experimental results on four medical image datasets (BraTS 2019, BraTS 2020, LiTS 2017 and KiTS 2019) demonstrate that TransBTSV2 achieves comparable or better results compared to the state-of-the-art methods for the segmentation of brain tumor, liver tumor as well as kidney tumor. Code will be publicly available at https://github.com/Wenxuan-1119/TransBTS.
研究动机与目标
- 通过利用全局上下文在保留局部三维细节的同时,推动体积分割的改进。
- 提出一个比深度更宽的 Transformer 设计,以在不牺牲性能的前提下降低模型复杂度。
- 引入 Deformable Bottleneck Modules 来捕捉不规则、具形状感知的病变细节。
- 提供一个通用、无需预训练的 3D CNN-Transformer 框架,适用于脑部肿瘤之外的场景。
- 在多种医学分割基准上展示具竞争力或优越的性能。
提出的方法
- 使用改进的 3D CNN 编码器来提取带下采样的局部体积特征。
- 通过扩展通道维和展平空间/深度维,将 3D 特征嵌入 Transformer 编码器,形成令牌。
- 应用重新设计的 Transformer 块,具备灵活扩宽的多头自注意力 (FW-MHSA) 和 FFN,形成更浅但更宽的架构。
- 采用一种倒置瓶颈式的宽度扩展:将 Transformer 深度降低到一个块并在内部变宽,以减少参数量和 FLOPs。
- 在每个跳连处集成一个 Deformable Bottleneck Module,通过 3D 变形卷积学习体积空间偏移,以获得形状感知的细节。
- 将 Transformer 输出恢复为 4D 特征图,并使用带跳跃连接的 3D CNN 解码器进行全分辨率分割。
实验结果
研究问题
- RQ1是否可以在不进行预训练的情况下,将基于 Transformer 的模型有效且高效地集成到 3D CNN 以进行体积医学影像分割?
- RQ2更宽更浅的 Transformer 架构是否在降低模型复杂度的同时保持或提升分割性能?
- RQ3跳连处的可变形机制是否能提升对3D医用图像中不规则病变形状的处理?
- RQ4与最先进方法相比,TransBTSV2 在脑部、肝脏和肾脏肿瘤分割基准上的表现如何?
主要发现
- TransBTSV2 在 BraTS 2019/2020、LiTS 2017、和 KiTS 2019 数据集上取得具竞争力或优越的结果。
- 将 Transformer 深度减至 1 并扩大内部维度可显著降低参数量和 FLOPs(例如参数减少 53.62%、FLOPs 减少 27.75%),同时保持或提升性能。
- Deformable Bottleneck Module 使跳连处能够捕获具有形状感知的局部细节,且额外计算成本极小。
- 该架构仍然是一个干净、通用的 3D 网络,不依赖预训练,并可结合多尺度特征融合等额外技术。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。