[논문 리뷰] ViT-V-Net: Vision Transformer for Unsupervised Volumetric Medical Image Registration
ViT-V-Net은 비지도 부피 의학 영상 정합을 위한 하이브리드 ConvNet-Transformer 아키텍처를 제안하며, 뇌 MRI 데이터에서 최상위 방법들보다 더 우수한 Dice 성능을 달성합니다.
In the last decade, convolutional neural networks (ConvNets) have dominated and achieved state-of-the-art performances in a variety of medical imaging applications. However, the performances of ConvNets are still limited by lacking the understanding of long-range spatial relations in an image. The recently proposed Vision Transformer (ViT) for image classification uses a purely self-attention-based model that learns long-range spatial relations to focus on the relevant parts of an image. Nevertheless, ViT emphasizes the low-resolution features because of the consecutive downsamplings, result in a lack of detailed localization information, making it unsuitable for image registration. Recently, several ViT-based image segmentation methods have been combined with ConvNets to improve the recovery of detailed localization information. Inspired by them, we present ViT-V-Net, which bridges ViT and ConvNet to provide volumetric medical image registration. The experimental results presented here demonstrate that the proposed architecture achieves superior performance to several top-performing registration methods.
연구 동기 및 목표
- 변형 가능한 이미지 정합(DIR)을 동기화하고, 긴 범위 공간 관계를 모델링하는 데 있어 합성곱 신경망의 한계를 해결한다.
- 3D 이미지 정합을 위한 긴 범위 특징 학습을 가능하게 하는 하이브리드 ViT-ConvNet 아키텍처를 제안한다.
- ViT-V-Net이 정합 정확도(Dice)를 향상시키고 긴 스킵 연결을 통해 위치 정보를 유지함을 보여준다.
- 뇌 MRI 데이터셋에서 최첨단 정합 방법들과의 비교 평가와 구현 세부 정보를 제공한다.
제안 방법
- 고정된 고정 이미지와 움직이는 3D 이미지로부터 ConvNet 블록과 풀링을 통해 고수준 특징을 인코드하여 해상도를 감소시킨다.
- 고수준 특징을 N개의 패치로 분할하고 Vision Transformer를 적용하여 긴 범위 관계를 학습한다.
- 패치를 선형 투영으로 임베딩하고 공간 정보를 위한 학습 가능한 위치 임베딩을 더한다.
- Transformer 출력은 위치 정보를 보존하기 위해 긴 스킵 연결을 갖춘 V-Net 스타일의 디코더를 통해 전달된다.
- 조밀한 변위 필드 u를 예측하고, 공간 변환기로 움직이는 이미지를 왜곡하며, MSE 유사도와 확산 정규화를 결합한 손실을 최적화한다.
실험 결과
연구 질문
- RQ1완전히 ConvNet 기반 레지스트리와 비교했을 때 하이브리드 ConvNet-Transformer 아키텍처가 비지도 3D 이미지 정합을 향상시킬 수 있는가?
- RQ2Vision Transformer 기반 인코딩이 용적 정합의 정확성에 중요한 긴 범위 공간 관계를 향상시키는가?
- RQ3ViT-V-Net 아키텍처가 뇌 MRI 데이터에서 선도 DIR 방법들보다 더 높은 Dice 점수를 달성할 수 있는가?
주요 결과
| 방법 | Affine | NiftyReg | SyN | VoxelMorph-1 | VoxelMorph-2 | ViT-V-Net | Dice |
|---|---|---|---|---|---|---|---|
| Dice | 0.569 ± 0.171 | 0.713 ± 0.134 | 0.688 ± 0.140 | 0.707 ± 0.137 | 0.711 ± 0.135 | 0.726 ± 0.130 |
- ViT-V-Net은 테스트 설정에서 여러 최상위 정합 방법들보다 높은 Dice 점수를 달성한다.
- 주요 비교 표의 Dice 보고: ViT-V-Net 0.726 ± 0.130 vs. 다른 방법들 (Affine 0.569 ± 0.171, NiftyReg 0.713 ± 0.134, SyN 0.688 ± 0.140, VoxelMorph-1 0.711 ± 0.135, VoxelMorph-2 0.707 ± 0.137).
- 긴 스킵 연결로 학습된 ViT-V-Net은 위치 정보를 보존하고 학습 손실이 더 낮고 검증 Dice가 더 높게 나타난다.
- 통계 테스트(쌍체 t-검정)는 ViT-V-Net이 여러 경쟁자보다 유의하게 우수함을 보여준다(p 값은 논문에 기재).
- 본 방법은 GPU에서 실행되며 보고된 시간과 함께 실제 적용 가능성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.