QUICK REVIEW

[論文レビュー] Efficient Complex-Valued Vision Transformers for MRI Classification Directly from k-Space

Moritz Rempe, Lukas T. Rotkopf|arXiv (Cornell University)|Jan 26, 2026

Advanced MRI Techniques and Applications被引用数 0

ひとこと要約

kViTを導入する。これは、radial patchesと複素位置埋め込みを用いて未サンプリングのk-Space MRIデータ上で直接動作する完全複素値Vision Transformerであり、VRAM使用量を劇的に削減しつつ競争力のある精度を達成する。

ABSTRACT

Deep learning applications in Magnetic Resonance Imaging (MRI) predominantly operate on reconstructed magnitude images, a process that discards phase information and requires computationally expensive transforms. Standard neural network architectures rely on local operations (convolutions or grid-patches) that are ill-suited for the global, non-local nature of raw frequency-domain (k-Space) data. In this work, we propose a novel complex-valued Vision Transformer (kViT) designed to perform classification directly on k-Space data. To bridge the geometric disconnect between current architectures and MRI physics, we introduce a radial k-Space patching strategy that respects the spectral energy distribution of the frequency-domain. Extensive experiments on the fastMRI and in-house datasets demonstrate that our approach achieves classification performance competitive with state-of-the-art image-domain baselines (ResNet, EfficientNet, ViT). Crucially, kViT exhibits superior robustness to high acceleration factors and offers a paradigm shift in computational efficiency, reducing VRAM consumption during training by up to 68$\times$ compared to standard methods. This establishes a pathway for resource-efficient, direct-from-scanner AI analysis.

研究の動機と目的

位相情報を保持し、損失のある再構成を回避するために、MRIのk-Spaceデータ上で直接AI解析を動機づける。
非局所的なk-Spaceデータに適した複素値ViTアーキテクチャを開発する。
物理情報に基づく放射状k-Spaceパッチ戦略と複素位置埋め込みを提案する。
複数のMRIデータセットにわたるアンダーサンプリングに対する頑健性を評価する。
標準的な画像領域ベースラインに対するVRAM効率の利点を示す。

提案手法

複素値のマルチヘッド自己注意機構とフィードフォワードネットワークを備えた完全な複素値トランスフォーマを実装する。
k-Space中心からの放射距離でピクセルを分割する放射状k-Spaceパッチを導入する。
パッチに複素値線形射影を適用し、複素値位置埋め込み（学習可能またはRoPEベース）を使用する。
fastMRI ProstateとKnee、および社内のGliomaデータセットを、未サンプリング要因が最大で24×の条件で訓練する。
実数値ViT、EfficientNet、ResNetベースラインと比較する。
AUROCとAUPRCを用いて、5分割クロスバリデーションとさまざまな加速因子で評価する。

実験結果

リサーチクエスチョン

RQ1k-Spaceデータ上で直接動作する複素値Vision Transformerは、MRI分類における画像領域のベースラインと同等かそれ以上を達成できるか？
RQ2MRIタスクにおいて、放射状パッチはキSpaceの構造をCartesianパッチよりも良く捉えるか？
RQ3未サンプリングに対して、実数値モデルと比較してk-SViTの性能とリソース使用量はどのようにスケールするか？
RQ4k-Spaceトランスフォーマの複素値位置埋め込みが性能に与える影響は？
RQ5このアプローチは、前立腺、膝、脳のグリオーマなど、異なるMRIモダリティと病変タスクにも頑健か？

主な発見

kViTは、MIL設定で最大68×のVRAM削減を実現しつつ、画像領域ベースラインと競合するAUROCとAUPRCを達成。
fastMRI Prostateでは、VRAMがResNet50よりはるかに低い状態で、高い未サンプリング（16×）でも堅牢な性能を維持。
fastMRI Kneeでは、VRAMを削減しつつSOTAと同等の性能に達するが、未サンプリングが高くなるとベースラインと同様に性能が低下。
MIL実験では、kViTは著しく低いVRAM（0.52–0.96 GB）で、患者レベルのAUPRCが強く、AUROCも競合。
アテンションマップは、k-Space中心に焦点を当て、外側の高周波領域への注意を示し、スペクトル情報の利用と一致。
アブレーションでは、パッチングにおける最適は16リングであること、位相情報の重要性を強調し、Cutout拡張の利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。