Skip to main content
QUICK REVIEW

[논문 리뷰] Weakly Supervised Segmentation with Multi-scale Adversarial Attention Gates

Gabriele Valvano, Andrea Leo|arXiv (Cornell University)|2020. 07. 02.
COVID-19 diagnosis using AI참고 문헌 33인용 수 3
한 줄 요약

이 논문은 스크래치(annotation)과 다중 척도 생성적 적대적 네트워크(multi-scale generative adversarial network, GAN)를 활용하여 고품질의 세그멘테이션 마스크를 생성하는 약한 지도 학습 세그멘테이션 모델을 제안한다. 적대적 신호에 기반한 어텐션 게이트를 조건화함으로써 모델은 형태 사전 지식을 학습하여 의료 및 비의료 데이터셋 전반에서 완전 지도 학습 모델과 동등한 성능을 달성한다.

ABSTRACT

Large, fine-grained image segmentation datasets, annotated at pixel-level, are difficult to obtain, particularly in medical imaging, where annotations also require expert knowledge. Weakly-supervised learning can train models by relying on weaker forms of annotation, such as scribbles. Here, we learn to segment using scribble annotations in an adversarial game. With unpaired segmentation masks, we train a multi-scale GAN to generate realistic segmentation masks at multiple resolutions, while we use scribbles to learn the correct position in the image. Central to the model's success is a novel attention gating mechanism, which we condition with adversarial signals to act as a shape prior, resulting in better object localization at multiple scales. We evaluated our model on several medical (ACDC, LVSC, CHAOS) and non-medical (PPSS) datasets, and we report performance levels matching those achieved by models trained with fully annotated segmentation masks. We also demonstrate extensions in a variety of settings: semi-supervised learning; combining multiple scribble sources (a crowdsourcing scenario) and multi-task learning (combining scribble and mask supervision). We will release expert-made scribble annotations for the ACDC dataset, and the code used for the experiments, at this https URL.

연구 동기 및 목표

  • 전문가의 참여로 인해 비용이 많이 들고 시간이 오래 걸리는 대규모 픽셀 수준의 정답 의료 영상 데이터 확보의 과제를 해결하기 위해.
  • 전체 인스턴스 마스크가 아닌 스크래치 수준의 정답만을 사용하는 약한 지도 학습 세그멘테이션 프레임워크를 개발하기 위해.
  • 어텐션 게이팅 메커니즘에 적대적 신호를 통합하여 형태 사전 지식으로서의 기능을 수행함으로써 객체 국소화 및 세그멘테이션 정확도를 향상시키기 위해.
  • 의료(ACDC, LVSC, CHAOS) 및 비의료(PPSS) 영역을 포함한 다양한 데이터셋에서 모델의 효과성을 입증하기 위해.
  • 정확도 및 일반화 능력을 향상시키기 위해 준지도 학습, 다중 소스 스크래치, 다중 작업 학습 설정으로 프레임워크를 확장하기 위해.

제안 방법

  • 쌍방향 정답 마스크가 없는 조건에서 여러 해상도에서 실제 세그멘테이션 마스크를 생성하기 위해 다중 척도 GAN을 훈련한다.
  • 스케일러블한 정답 마스크를 생성하기 위해 스크래치 정답를 조건으로 삼아 픽셀 수준의 객체 국소화를 유도한다.
  • 판별자로부터의 피드백을 활용하여 특징 맵을 정밀하게 조정하고 형태 일관성을 강화하는 새로운 적대적 어텐션 게이트를 도입한다.
  • 적대적 신호를 사용하여 어텐션 게이트를 조정함으로써, 다양한 척도에서 국소화 정확도를 향상시키는 형태 사전 지식으로서의 효과를 발휘한다.
  • 생성자와 판별자를 적대적 게임 구조로 훈련하여, 생성자는 실제 마스크를 생성하도록 학습하고, 판별자는 실제 마스크와 가짜 마스크를 구분하도록 한다.
  • U-Net 유사 아키텍처의 스케일업 연결에 어텐션 게이트를 통합하여 모든 척도에서 공간적 세부 정보를 유지한다.

실험 결과

연구 질문

  • RQ1스크래치 정답만을 사용하는 약한 지도 학습 세그멘테이션 모델이 완전 지도 학습 모델과 동등한 성능을 달성할 수 있는가?
  • RQ2제안된 적대적 어텐션 게이트는 객체 국소화 및 세그멘테이션 정확도 향상에 얼마나 효과적인가?
  • RQ3다중 척도 GAN 프레임워크는 다양한 영상 도메인에서 생성된 세그멘테이션 마스크의 품질을 향상시키는가?
  • RQ4모델은 준지도 학습 및 다중 소스 스크래치 학습 시나리오로 일반화 가능한가?
  • RQ5스크래치 정답과 부분 마스크 정답을 결합한 방식이 전체 세그멘테이션 성능에 미치는 영향은 어떠한가?

주요 결과

  • 제안된 모델은 ACDC, LVSC, CHAOS, PPSS를 포함한 다양한 의료 및 비의료 데이터셋에서 완전 지도 학습 모델과 동등한 세그멘테이션 성능을 달성한다.
  • 적대적 어텐션 게이트는 형태 사전 지식으로서의 기능을 수행하여 객체 국소화 정확도를 크게 향상시키며, 잘못된 양성 결과를 줄이고 경계 정확도를 향상시킨다.
  • 모델은 준지도 학습 환경에서도 잘 일반화되며, 훈련 샘플의 일부만 스크래치로 정답이 주어진 경우에도 효과적으로 작동한다.
  • 다양한 스크래치 소스(예: 커뮤니티 기반 정답자들)를 결합함으로써 정확도가 향상되고 높은 성능을 유지한다.
  • 다중 작업 학습 환경에서 스크래치 정답과 부분 마스크 정답을 통합함으로써 세그멘테이션 정확도와 수렴 속도가 더욱 향상된다.
  • 저자들은 ACDC 데이터셋에 대한 전문가가 제작한 스크래치 정답 및 코드를 공개하여 재현 가능성과 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.