QUICK REVIEW

[논문 리뷰] Combining Noise-to-Image and Image-to-Image GANs: Brain MR Image Augmentation for Tumor Detection

Changhee Han, Leonardo Rundo|arXiv (Cornell University)|2019. 01. 01.

Generative Adversarial Networks and Image Synthesis참고 문헌 52인용 수 16

한 줄 요약

이 논문은 두 단계로 구성된 GAN 기반 데이터 증강 프레임워크를 제안한다. 첫 번째 단계에서는 프로그레시브 그로잉 GANs(PGGANs)를 사용해 랜덤 노이즈에서 종양이 있는지 여부에 따라 고해상도 뇌 MRI 영상을 생성하고, 두 번째 단계에서는 다중모달 비지도 이미지-이미지 번역(MUNIT) 또는 SimGAN을 통해 이미지를 정제한다. 이 방법은 고전적 데이터 증강 기법과 조합했을 때 종양 탐지 민감도를 93.67%에서 97.48%로 크게 향상시키며, 모든 기준선 대비 민감도와 실제 데이터의 분포 유사도 측면에서 뛰어난 성능을 보였다.

ABSTRACT

Convolutional Neural Networks (CNNs) achieve excellent computer-assisted diagnosis with sufficient annotated training data. However, most medical imaging datasets are small and fragmented. In this context, Generative Adversarial Networks (GANs) can synthesize realistic/diverse additional training images to fill the data lack in the real image distribution; researchers have improved classification by augmenting data with noise-to-image (e.g., random noise samples to diverse pathological images) or image-to-image GANs (e.g., a benign image to a malignant one). Yet, no research has reported results combining noise-to-image and image-to-image GANs for further performance boost. Therefore, to maximize the DA effect with the GAN combinations, we propose a two-step GAN-based DA that generates and refines brain Magnetic Resonance (MR) images with/without tumors separately: (i) Progressive Growing of GANs (PGGANs), multi-stage noise-to-image GAN for high-resolution MR image generation, first generates realistic/diverse 256 X 256 images; (ii) Multimodal UNsupervised Image-to-image Translation (MUNIT) that combines GANs/Variational AutoEncoders or SimGAN that uses a DA-focused GAN loss, further refines the texture/shape of the PGGAN-generated images similarly to the real ones. We thoroughly investigate CNN-based tumor classification results, also considering the influence of pre-training on ImageNet and discarding weird-looking GAN-generated images. The results show that, when combined with classic DA, our two-step GAN-based DA can significantly outperform the classic DA alone, in tumor detection (i.e., boosting sensitivity 93.67% to 97.48%) and also in other medical imaging tasks.

연구 동기 및 목표

뇌 종양 탐지에서 작은 크기이자 분할된 의료 영상 데이터셋 문제를 해결하기 위해.
실제적이고 다양한 합성 MR 영상을 생성함으로써 CNN 기반 종양 분류 성능을 향상시키기 위해.
노이즈에서 이미지로 변환하는 GAN과 이미지에서 이미지로 변환하는 GAN을 조합하면 개별 GAN 접근 방식보다 우수한 데이터 증강을 이끌 수 있는지 조사하기 위해.
ImageNet 사전 훈련의 영향과 저품질 합성 이미지 제거가 진단 성능에 미치는 영향을 평가하기 위해.
전문가 평가와 t-SNE 시각화를 통해 생성된 이미지의 임상적 관련성과 분포 충실도를 검증하기 위해.

제안 방법

먼저, 프로그레시브 그로잉 GANs(PGGANs)를 사용해 랜덤 노이즈에서 종양이 있는지 여부에 따라 고해상도(256×256) 뇌 MRI 영상을 생성한다.
다음으로, MUNIT 또는 SimGAN을 적용해 PGGAN가 생성한 이미지의 질감과 형태를 정제하여 실제 이미지 분포와 더 가까이 맞춘다.
두 단계의 앙상블 생성 과정을 사용한다: PGGANs로 초기 이미지 합성 후, 이미지 간 번역을 통해 정제한다.
정제된 합성 이미지를 원본 이미지 및 기하학적 증강 이미지와 조합하여 이진 분류기(ResNet-50)를 훈련한다.
SimGAN에서는 DA 중심 손실을 적용하고, MUNIT에서는 하이브리드 GAN/VAE 손실을 사용하여 현실성과 다양성을 유지하면서도 정밀도를 향상시킨다.
종양 탐지 민감도, 특이도, Visual Turing Test 및 t-SNE를 통한 시각적 충실도 평가를 통해 성능을 평가한다.

실험 결과

연구 질문

RQ1종양이 있는지 여부에 따라 전체 뇌 MRI 영상의 현실성과 다양성을 높게 구현하는 데 가장 효과적인 GAN 아키텍처는 무엇인가?
RQ2노이즈에서 이미지로 변환하는 GAN과 이미지에서 이미지로 변환하는 GAN을 조합하면 의료 영상 분류를 위한 데이터 증강에 어떻게 기여하는가?
RQ3ImageNet 사전 훈련은 종양 탐지에서 GAN 기반 데이터 증강의 성능에 어떤 영향을 미치는가?
RQ4저품질이거나 '이상한 모양'의 합성 이미지를 제거하면 진단 민감도와 모델 일반화 능력에 어떤 영향을 미치는가?
RQ5GAN으로 생성된 이미지가 실제 데이터의 분포 격차를 얼마나 메우는가? 특히 희귀하거나 탐지하기 어려운 종양의 경우에 대해 어느 정도인가?

주요 결과

두 단계 GAN 기반 데이터 증강 방법은 고전적 데이터 증강 대비 종양 탐지 민감도를 93.67%(고전적 DA)에서 97.48%로 크게 향상시켰다.
MUNIT로 정제된 이미지가 SimGAN 및 고전적 데이터 증강보다 높은 민감도를 기록하여 가장 뛰어난 성능을 보였다.
ImageNet 사전 훈련 없이도 GAN 기반 방법은 특이도보다 민감도가 더 높게 나타나, 부족하게 표현된 종양 분포를 효과적으로 커버하고 있음을 시사했다.
Visual Turing Test 결과, 전문가 방사선의사들이 많은 PGGAN 생성 이미지를 실제 이미지와 구별할 수 없었으며, 이는 현실성의 타당성을 입증했다.
t-SNE 시각화 결과, MUNIT로 정제된 합성 이미지는 다른 방법보다 더 우수한 클래스 분리와 실제 이미지와 유사한 분포를 보였다.
저품질이거나 '이상한 모양'의 합성 이미지를 제거함으로써 성능 향상이 이루어졌으며, 이는 특히 ImageNet 사전 훈련이 없는 경우에 더 두드러졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.