Skip to main content
QUICK REVIEW

[논문 리뷰] US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

Ashwath Radhachandran, Vedrana Ivezić|arXiv (Cornell University)|2026. 02. 22.
Ultrasound Imaging and Elastography인용 수 0
한 줄 요약

US-JEPA는 ultrasound를 위한 정적-교사 SALT 기반 JEPA 방법을 도입하여 마스킹된 임베딩 공간에서 잠재 표현을 학습하고, UltraBench의 여덟 가지 태스크에서 강력한 선형 탐색(performance)을 달성합니다.

ABSTRACT

Ultrasound (US) imaging poses unique challenges for representation learning due to its inherently noisy acquisition process. The low signal-to-noise ratio and stochastic speckle patterns hinder standard self-supervised learning methods relying on a pixel-level reconstruction objective. Joint-Embedding Predictive Architectures (JEPAs) address this drawback by predicting masked latent representations rather than raw pixels. However, standard approaches depend on hyperparameter-brittle and computationally expensive online teachers updated via exponential moving average. We propose US-JEPA, a self-supervised framework that adopts the Static-teacher Asymmetric Latent Training (SALT) objective. By using a frozen, domain-specific teacher to provide stable latent targets, US-JEPA decouples student-teacher optimization and pushes the student to expand upon the semantic priors of the teacher. In addition, we provide the first rigorous comparison of all publicly available state-of-the-art ultrasound foundation models on UltraBench, a public dataset benchmark spanning multiple organs and pathological conditions. Under linear probing for diverse classification tasks, US-JEPA achieves performance competitive with or superior to domain-specific and universal vision foundation model baselines. Our results demonstrate that masked latent prediction provides a stable and efficient path toward robust ultrasound representations.

연구 동기 및 목표

  • 소음 및 스펙클 아티팩트로 인한 초음파 표현 학습의 강건성과 데이터 효율성을 addressed.
  • 고정 도메인 특화 교사(URFM)를 사용하여 잠재 공간에서 작동하는 JEPA 기반 자기지도 프레임워크를 개발.
  • 픽셀 수준 재구성에 대한 의존성을 완화하고 잠재적, 의미론적 예측에 집중.
  • 선형 탐색으로 표준화된 UltraBench에서 모든 공개 초음파 기반 모델을 벤치마킹하여 평가를 표준화합니다.

제안 방법

  • 도메인 특화 교사(URFM)를 고정하여 안정적인 잠재 타깃을 제공하는 SALT를 채택합니다.
  • 같은 이미지의 컨텍스트 블록에서 타깃 임베딩을 예측하는 마스킹된 잠재 예측 목표를 사용합니다.
  • USrc(Ultrasound Region-Conditioning)을 도입하여 마스킹을 초음파-유효 영역으로만 제한하고 비해부학적 콘텐츠를 피합니다.
  • 컨텍스트 인코더(ViT-B/16)와 예측기를 학습시켜 고정된 교사 임베딩과의 Smooth L1 거리를 최소화합니다.
  • 대규모 공개 초음파 코퍼스로 사전학습(~4.73M 프레임, 49개 데이터셋).
  • 일반화된 UltraBench 선형 탐색기로 8개의 분류 태스크를 평가합니다.
Figure 1 : USrc-JEPA framework. Here we show the model training framework with USrc. URFM is the frozen teacher that extracts target embeddings. The student and predictor are jointly optimized with $\mathcal{L}_{US-JEPA}$ to align with the target.
Figure 1 : USrc-JEPA framework. Here we show the model training framework with USrc. URFM is the frozen teacher that extracts target embeddings. The student and predictor are jointly optimized with $\mathcal{L}_{US-JEPA}$ to align with the target.

실험 결과

연구 질문

  • RQ1정적-교사 SALT 프레임워크가 EMA 기반 JEPA 및 도메인 특화 베이스라인에 비해 잠재 공간의 초음파 표현을 개선할 수 있습니까?
  • RQ2다양한 초음파 태스크에서 소수 샷 선형 탐색에서 US-JEPA의 성능은 어떻게 되나요?
  • RQ3학습된 잠재 공간이 초음파 영상에서 흔히 발생하는 도메인 특유의 아티팩트 및 왜곡에 대해 얼마나 강건한가요?
  • RQ4타깃/컨텍스트를 초음파-유효 영역으로만 제한하는(USrc) 것이 표현 품질을 향상시키나요?
  • RQ5표준화된 UltraBench 벤치마크에서 공개 초음파 기반 모델과의 비교는 어떻게 되나요?

주요 결과

  • US-JEPA 및 USrc-JEPA가 8개 중 5개 UltraBench 태스크에서 최첨단 선형 탐색 성능을 달성합니다.
  • MMOTU(8-class 난소 종양)에서 US-JEPA는 매크로 F1 52.2%를 기록하며 URFM보다 9.5%포인트 향상되었습니다.
  • US-JEPA 및 USrc-JEPA는 도메인 특유의 왜곡, 특히 스펙클 노이즈에 대해 강건한 모습을 보이며, 높은 왜곡 수준에서 베이스라인을 능가합니다.
  • 소수 샷 설정에서 라벨링 데이터가 <10%일 때, US-JEPA의 매크로 F1은 URFM 및 USFM보다 최대 18% 포인트 더 높습니다.
  • US-JEPA는 도메인 특이 및 보편적 베이스라인에 대해 경쟁력 있는 결과를 달성하며, 표준화된 공개 벤치마킹을 가능하게 합니다.
Figure 2 : Distribution of pretraining data. To characterize the dataset composition at the organ level, we report the distribution of a. temporal sequences, including videos and volumes ( $n_{v}$ ), and b. individual static frames ( $n_{f}$ ).
Figure 2 : Distribution of pretraining data. To characterize the dataset composition at the organ level, we report the distribution of a. temporal sequences, including videos and volumes ( $n_{v}$ ), and b. individual static frames ( $n_{f}$ ).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.