[논문 리뷰] Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement
시각적으로 안내되는 텍스트 분리 확산 프레임워크를 소개하며, 교차 모달 시각적 우선 정보를 사용해 의학 프롬프트에서 해부학적 구조와 이미징 스타일을 분리하고, 더 정밀한 제어 가능한 이미지 생성을 가능하게 하며 충실도와 다운스트림 분류 이점을 향상시킴.
Medical image synthesis is crucial for alleviating data scarcity and privacy constraints. However, fine-tuning general text-to-image (T2I) models remains challenging, mainly due to the significant modality gap between complex visual details and abstract clinical text. In addition, semantic entanglement persists, where coarse-grained text embeddings blur the boundary between anatomical structures and imaging styles, thus weakening controllability during generation. To address this, we propose a Visually-Guided Text Disentanglement framework. We introduce a cross-modal latent alignment mechanism that leverages visual priors to explicitly disentangle unstructured text into independent semantic representations. Subsequently, a Hybrid Feature Fusion Module (HFFM) injects these features into a Diffusion Transformer (DiT) through separated channels, enabling fine-grained structural control. Experimental results in three datasets demonstrate that our method outperforms existing approaches in terms of generation quality and significantly improves performance on downstream classification tasks. The source code is available at https://github.com/hx111/VG-MedGen.
연구 동기 및 목표
- 의료 영상에서 데이터 부족과 프라이버시 문제를 해결하기 위해 미세한 의미 프롬프트에 조건화된 고품질 합성 이미지를 생성한다.
- 의료 텍스트 프롬프트에서 해부학적 구조와 이미징 스타일 사이의 의미론적 얽힘을 극복한다.
- 생성된 의료 이미지에 대해 충실도와 다운스트림 작업의 유용성을 유지하면서 정밀하고 미세한 제어를 가능하게 한다.
제안 방법
- 사전 학습된 시각 인코더를 통한 교차 모달 잠재 정렬을 활용하여 텍스트를 해부학 및 스타일 임베딩으로 분리하는 것을 감독한다.
- Explicit Dice와 KL 손실을 사용해 해부학 및 스타일 피처를 얻는 이중 분기 시각 인코더(해부학은 U-Net, 스타일은 변분 인코더) 및 명시적 제약을 구현한다.
- ClinicalBERT 임베딩을 해부학 및 스타일 잠재 공간으로 매핑하는 두 개의 텍스트 매핑 네트워크(E_a^T 및 E_s^T)를 도입하여 시각적 우선과의 정렬을 달성한다.
- 1) 교차 어텐션의 별도 채널을 통해 해부학 및 스타일 피처를 주입하기 위해 형태 임베딩을 사용하는 하이브리드 피처 융합 모듈(HFFM)을 도입한다.
- 생성 시 파라미터 효율성을 위해 주의(attention) 프로젝션만을 미세 조정하는 Low-Rank Adaptation(LoRA)을 사용한다.
- 생성된 이미지의 색상 충실도를 강제하는 온라인 색 분포 손실을 포함한다.
실험 결과
연구 질문
- RQ1시각적 우선 정보가 구조화되지 않은 의학 텍스트에서 해부학적 구조와 이미징 스타일의 신뢰할 만한 분리가 가능하게 하는가?
- RQ2교차 모달 정렬이 기존의 의료 T2I 방법들보다 미세한 제어 가능성과 생성 충실도를 향상시키는가?
- RQ3해로운/데이터 의존적 데이터에서 합성 데이터가 다운스트림 진단/분류 성능을 향상시키는가?
주요 결과
- 제안된 시각적으로 안내된 분리 프레임워크는 세 가지 의료 데이터셋에서 강력한 baselines 대비 낮은 FID, KID 및 도메인 특화 지표(HFD/KFD)를 달성했다.
- HAM10000에서 이 방법은 FID 51.56 및 HFD 3.22를 달성하며 PixArt-α 및 다른 baselines보다 우수하다.
- Kvasir-SEG 및 BUSI에서 이 방법은 일관되게 최저 HFD/KID를 산출했다(예: Kvasir-SEG에서 HFD 3.70).
- Ours 모델은 0.833B 파라미터로 Med-Art 대비 약 84.7% 적고 SD1.5/SDXL 계열 대비 22% 더 작으며 추론 속도도 빠르다(1.457초/이미지).
- 이 접근법의 합성 데이터는 HAM10000에서 다운스트림 분류 지표(최대 F1 0.619, BACC 0.348)를 baselines 및 일부 실데이터 baselines 대비 향상시킨다.
- 특성-캡션 품질과 분리 + HFFM의 조합이 낮은 FID(51.56) 달성에 결정적이며 변형 버전에서는 저하된다(실험 제거군).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.