QUICK REVIEW

[논문 리뷰] TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays

Xiaosong Wang, Yifan Peng|arXiv (Cornell University)|2018. 01. 12.

COVID-19 diagnosis using AI참고 문헌 6인용 수 57

한 줄 요약

TieNet는 흉부 X선 영상과 관련 방사선 보고서에서 공동 텍스트-이미지 임베딩을 학습하는 다중 태스크 CNN-RNN 프레임워크를 제시하여 다중 레이블 질병 분류를 개선하고 예비 보고서를 생성합니다. 주의 기반 텍스트 및 이미지 임베딩을 활용하여 이미지를 자동 주석 처리하고 보고서를 생성하며, 여러 데이터셋에서 기준선 baselines를 능가합니다.

ABSTRACT

Chest X-rays are one of the most common radiological examinations in daily clinical routines. Reporting thorax diseases using chest X-rays is often an entry-level task for radiologist trainees. Yet, reading a chest X-ray image remains a challenging job for learning-oriented machine intelligence, due to (1) shortage of large-scale machine-learnable medical image datasets, and (2) lack of techniques that can mimic the high-level reasoning of human radiologists that requires years of knowledge accumulation and professional training. In this paper, we show the clinical free-text radiological reports can be utilized as a priori knowledge for tackling these two key problems. We propose a novel Text-Image Embedding network (TieNet) for extracting the distinctive image and text representations. Multi-level attention models are integrated into an end-to-end trainable CNN-RNN architecture for highlighting the meaningful text words and image regions. We first apply TieNet to classify the chest X-rays by using both image features and text embeddings extracted from associated reports. The proposed auto-annotation framework achieves high accuracy (over 0.9 on average in AUCs) in assigning disease labels for our hand-label evaluation dataset. Furthermore, we transform the TieNet into a chest X-ray reporting system. It simulates the reporting process and can output disease classification and a preliminary report together. The classification results are significantly improved (6% increase on average in AUCs) compared to the state-of-the-art baseline on an unseen and hand-labeled dataset (OpenI).

연구 동기 및 목표

자유 텍스트 방사선 보고서를 사전 지식으로 활용하여 흉부 X선 질병 분류 및 보고서를 개선합니다.
다중 수준 주의를 통해 이미지 영역과 보고서 단어를 추출하는 통합 CNN-RNN 프레임워크를 개발합니다.
높은 정확도의 질병 라벨링을 위한 이미지 임베딩과 텍스트 임베딩을 사용하는 자동 주석 시스템을 만듭니다.
모델을 흉부 X선 보고 시스템으로 변환하여 질병 분류와 예비 보고서를 모두 출력합니다.

제안 방법

ImageNet으로 사전 학습된 CNN(ResNet-50)과 LSTM 기반 디코더로 시작하는 엔드-투-엔드 CNN-RNN 아키텍처.
RNN 은닉 상태로부터 전역 텍스트 표현을 얻기 위한 주의 인코딩 텍스트 임베딩(AETE)의 도입.
텍스트 주의에 의해 안내되는 이미지 임베딩을 생성하기 위한 saliency 가중 글로벌 평균 풀링(SW-GAP)을 사용합니다.
종합 손실을 가진 공동 학습: L_overall = α L_C + (1−α) L_R, 여기서 L_C는 다중 레이블 분류 손실이고 L_R은 RNN 생성 손실입니다.
이미지 데이터만(또는 이미지+보고서 데이터)을 이용해 질병 라벨을 학습하는 자동 주석 경로.
테스트 시점에 이미지만 받아 다중 라벨 예측과 생성된 보고서를 출력하는 자동 분류 및 보고 시스템으로의 적용합니다.

실험 결과

연구 질문

RQ1자유 텍스트 방사선 보고서를 사전 지식으로 활용하여 흉부 X선 질병 분류 및 보고서를 개선할 수 있는가?
RQ2이미지 영역과 보고서 단어에 대한 다중 수준 주의가 진단 및 설명을 위한 구분 가능하고 해석 가능한 임베딩을 어떻게 향상시키는가?
RQ3이미지 임베딩과 텍스트 임베딩의 공동 학습이 보지 못한 데이터에서 자동 주석 정확도와 예비 보고서의 정확성을 향상시키는가?

주요 결과

TieNet은 이미지+보고서 입력을 사용할 때 손실 평균 AUC가 0.9를 넘는 높은 자동 주석 정확도를 달성합니다.
이미지+보고서(I+R) 구성은 ChestX-ray14, Hand-labeled, OpenI 데이터셋 전반에서 보고서 전용(R) 또는 이미지 전용(I) 베이스라인보다 일반적으로 성능이 앞섭니다.
통합 이미지 분류 및 보고 시스템(I+GR)은 세 데이터셋에서 기준 대비 AUC 증가를 2.3%에서 5.7%(#wAVG) 범위로 지속적으로 보여줍니다.
TieNet을 통한 생성 보고서는 BLEU, METEOR, ROUGE-L 점수가 베이스라인 자막 생성 모델보다 높아 보고서 품질이 향상되었음을 시사합니다.
모델은 일반화됩니다: ChestX-ray14에서 학습된 자동 주석은 OpenI에서 잘 작동하고, 이미지 전용 모델은 외부 데이터셋에 잘 일반화합니다.
텍스트 주의가 반영된 단어들과 공간적 주의지도는 예측된 소견에 대해 해석 가능한 시각적/텍스트적 주의성을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.