QUICK REVIEW

[논문 리뷰] Unsupervised Multimodal Representation Learning across Medical Images and Reports

Tzu-Ming Harry Hsu, Wei‐Hung Weng|arXiv (Cornell University)|2018. 11. 21.

Multimodal Machine Learning Applications참고 문헌 21인용 수 27

한 줄 요약

이 논문은 MIMIC-CXR 데이터셋을 사용하여 흉부 X선 영상과 영상의학 보고서 간의 비지도 및 약한 지도 학습을 통한 통합 표현 학습을 제안한다. 이미지 및 텍스트 임베딩을 임베딩 정렬 및 적대적 훈련을 통해 정렬함으로써, 전체 데이터의 0.1% 미만의 레이블이 있는 경우에도 완전 지도 학습 방법과 비교할 만한 성능을 달성하며, 이는 국소적 및 전역적 메트릭 모두에서 검색 품질 향상에 최소한의 지도 학습이 상당한 영향을 미친다는 것을 보여준다.

ABSTRACT

Joint embeddings between medical imaging modalities and associated radiology reports have the potential to offer significant benefits to the clinical community, ranging from cross-domain retrieval to conditional generation of reports to the broader goals of multimodal representation learning. In this work, we establish baseline joint embedding results measured via both local and global retrieval methods on the soon to be released MIMIC-CXR dataset consisting of both chest X-ray images and the associated radiology reports. We examine both supervised and unsupervised methods on this task and show that for document retrieval tasks with the learned representations, only a limited amount of supervision is needed to yield results comparable to those of fully-supervised methods.

연구 동기 및 목표

검색 및 거리 메트릭을 사용하여 의료 영상과 영상의학 보고서 간의 기준 통합 임베딩 방법을 수립하기 위해.
통합 임베딩 공간에서 다양한 수준의 지도 학습이 표현 품질에 미치는 영향을 평가하기 위해.
영상의학 보고서의 다양한 섹션(예: 소견 대비 인상)이 임베딩 성능에 미치는 영향을 분석하기 위해.
비지도 사전 학습과 최소한의 지도 학습을 조합할 경우 완전 지도 학습 모델과 비교할 만한 강력한 검색 성능을 달성할 수 있음을 보여주기 위해.

제안 방법

텍스트 특징는 이중어(비그램), GloVe 임베딩, 또는 깊이 평균화 네트워크(DAN) 인코더에서 유도된 미세조정된 문장/단락 임베딩을 사용하여 추출된다.
이미지 특징는 사전 학습된 DenseNet-121의 마지막 블로킹 레이어에서 추출되며, 주성분 분석(PCA)을 통해 64차원으로 감소된다.
이미지 및 텍스트 임베딩은 선형 변환을 통해 임베딩 정렬(EA) 기법을 사용하여 정렬되며, 투영된 이미지 및 텍스트 특징 간의 프로베니우스 노름을 최소화한다.
적대적 훈련을 통해 이미지 및 텍스트 모odal 간을 구분하는 디스크림ิน레이터를 속이는 도메인 불변 투영 행렬을 학습한다.
모델은 반지도 학습 목표로 훈련되며, 지도 학습에 사용되는 쌍화된 데이터의 비율을 다양하게 설정한다.
평가에서는 국소 검색(직접적인 이미지-보고서 쌍)과 전역 검색(ICC-9 코드 그룹화)을 모두 사용하며, nDCG@100, MRR, 코사인 유사도 등의 메트릭이 사용된다.

실험 결과

연구 질문

RQ1비지도 통합 임베딩 학습이 의료 영상-보고서 쌍에서 완전 지도 학습 방법과 비교할 만한 검색 성능를 달성할 수 있는가?
RQ2지도 학습의 양(쌍화된 데이터의 비율)이 통합 임베딩 공간에서 학습된 표현 품질에 어떤 영향을 미치는가?
RQ3영상의학 보고서의 다양한 섹션(예: 소견 대비 인상)을 사용할 경우 표현 품질 및 검색 성능에 뚜렷한 차이가 발생하는가?
RQ4다양한 텍스트 특징 추출 방법(이중어, 문장 임베딩, 단락 임베딩)이 통합 표현 학습에서 성능에 어떻게 영향을 미치는가?
RQ5대규모 비쌍화된 데이터에서의 비지도 사전 학습과 최소한의 지도 학습을 조합할 경우 상당한 성능 향상이 달성될 수 있는가?

주요 결과

0.1%의 지도 학습만으로도 모델이 nDCG@100 0.69를 달성하며, 완전 지도 학습 모델의 성능(0.70)에 근접함을 보여, 최소한의 레이블링이 상당한 성능 향상을 이끌 수 있음을 시사한다.
보고서의 '소견' 섹션을 기반으로 훈련된 모델이 '인상' 섹션을 기반으로 훈련된 모델보다 코사인 유사도와 MRR 측면에서 성능이 뛰어나며, 이는 이미지-패턴 기술이 더 일관성 있게 이루어지기 때문일 것이다.
'인상' 섹션은 '소견' 섹션보다 nDCG@100가 높은 편(0.169 대비 0.163)을 보이며, 이는 nDCG가 질병과 관련이 있어 인상 섹션이 임상적 맥락을 통합하기 때문이다.
문장 및 단락 임베딩은 이중어 TF-IDF 특징에 비해 성능이 열 劣하며, 이는 사전 학습 과정에서 의료 도메인 언어와의 정렬이 잘 되지 않았기 때문일 것이다.
비지도 프로크루스테스 보정은 가끔 성능 향상을 이끌지만 일관되게 유익하지는 않다.
적대적 훈련과 프로크루스테스 보정을 단락 임베딩과 조합할 경우, 비지도 방법 중에서 가장 높은 nDCG@100(0.169)를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.