QUICK REVIEW

[논문 리뷰] ViT-V-Net: Vision Transformer for Unsupervised Volumetric Medical Image Registration

Junyu Chen, Yufan He|arXiv (Cornell University)|2021. 04. 13.

Advanced Neural Network Applications참고 문헌 20인용 수 139

한 줄 요약

ViT-V-Net은 비지도 부피 의학 영상 정합을 위한 하이브리드 ConvNet-Transformer 아키텍처를 제안하며, 뇌 MRI 데이터에서 최상위 방법들보다 더 우수한 Dice 성능을 달성합니다.

ABSTRACT

In the last decade, convolutional neural networks (ConvNets) have dominated and achieved state-of-the-art performances in a variety of medical imaging applications. However, the performances of ConvNets are still limited by lacking the understanding of long-range spatial relations in an image. The recently proposed Vision Transformer (ViT) for image classification uses a purely self-attention-based model that learns long-range spatial relations to focus on the relevant parts of an image. Nevertheless, ViT emphasizes the low-resolution features because of the consecutive downsamplings, result in a lack of detailed localization information, making it unsuitable for image registration. Recently, several ViT-based image segmentation methods have been combined with ConvNets to improve the recovery of detailed localization information. Inspired by them, we present ViT-V-Net, which bridges ViT and ConvNet to provide volumetric medical image registration. The experimental results presented here demonstrate that the proposed architecture achieves superior performance to several top-performing registration methods.

연구 동기 및 목표

변형 가능한 이미지 정합(DIR)을 동기화하고, 긴 범위 공간 관계를 모델링하는 데 있어 합성곱 신경망의 한계를 해결한다.
3D 이미지 정합을 위한 긴 범위 특징 학습을 가능하게 하는 하이브리드 ViT-ConvNet 아키텍처를 제안한다.
ViT-V-Net이 정합 정확도(Dice)를 향상시키고 긴 스킵 연결을 통해 위치 정보를 유지함을 보여준다.
뇌 MRI 데이터셋에서 최첨단 정합 방법들과의 비교 평가와 구현 세부 정보를 제공한다.

제안 방법

고정된 고정 이미지와 움직이는 3D 이미지로부터 ConvNet 블록과 풀링을 통해 고수준 특징을 인코드하여 해상도를 감소시킨다.
고수준 특징을 N개의 패치로 분할하고 Vision Transformer를 적용하여 긴 범위 관계를 학습한다.
패치를 선형 투영으로 임베딩하고 공간 정보를 위한 학습 가능한 위치 임베딩을 더한다.
Transformer 출력은 위치 정보를 보존하기 위해 긴 스킵 연결을 갖춘 V-Net 스타일의 디코더를 통해 전달된다.
조밀한 변위 필드 u를 예측하고, 공간 변환기로 움직이는 이미지를 왜곡하며, MSE 유사도와 확산 정규화를 결합한 손실을 최적화한다.

실험 결과

연구 질문

RQ1완전히 ConvNet 기반 레지스트리와 비교했을 때 하이브리드 ConvNet-Transformer 아키텍처가 비지도 3D 이미지 정합을 향상시킬 수 있는가?
RQ2Vision Transformer 기반 인코딩이 용적 정합의 정확성에 중요한 긴 범위 공간 관계를 향상시키는가?
RQ3ViT-V-Net 아키텍처가 뇌 MRI 데이터에서 선도 DIR 방법들보다 더 높은 Dice 점수를 달성할 수 있는가?

주요 결과

방법	Affine	NiftyReg	SyN	VoxelMorph-1	VoxelMorph-2	ViT-V-Net	Dice
Dice	0.569 ± 0.171	0.713 ± 0.134	0.688 ± 0.140	0.707 ± 0.137	0.711 ± 0.135	0.726 ± 0.130

ViT-V-Net은 테스트 설정에서 여러 최상위 정합 방법들보다 높은 Dice 점수를 달성한다.
주요 비교 표의 Dice 보고: ViT-V-Net 0.726 ± 0.130 vs. 다른 방법들 (Affine 0.569 ± 0.171, NiftyReg 0.713 ± 0.134, SyN 0.688 ± 0.140, VoxelMorph-1 0.711 ± 0.135, VoxelMorph-2 0.707 ± 0.137).
긴 스킵 연결로 학습된 ViT-V-Net은 위치 정보를 보존하고 학습 손실이 더 낮고 검증 Dice가 더 높게 나타난다.
통계 테스트(쌍체 t-검정)는 ViT-V-Net이 여러 경쟁자보다 유의하게 우수함을 보여준다(p 값은 논문에 기재).
본 방법은 GPU에서 실행되며 보고된 시간과 함께 실제 적용 가능성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.