Skip to main content
QUICK REVIEW

[논문 리뷰] Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

Chenxi Liu, Liang-Chieh Chen|arXiv (Cornell University)|2019. 01. 10.
Advanced Neural Network Applications참고 문헌 93인용 수 149
한 줄 요약

Auto-DeepLab은 네트워크 수준과 셀 수준 구조를 함께 최적화하는 계층적 신경망 구조 탐색(NAS)을 도입하여, ImageNet 사전학습 없이도 강력한 결과를 달성하고 효율적인 탐색(~3 GPU일)

ABSTRACT

Recently, Neural Architecture Search (NAS) has successfully identified neural network architectures that exceed human designed ones on large-scale image classification. In this paper, we study NAS for semantic image segmentation. Existing works often focus on searching the repeatable cell structure, while hand-designing the outer network structure that controls the spatial resolution changes. This choice simplifies the search space, but becomes increasingly problematic for dense image prediction which exhibits a lot more network level architectural variations. Therefore, we propose to search the network level structure in addition to the cell level structure, which forms a hierarchical architecture search space. We present a network level search space that includes many popular designs, and develop a formulation that allows efficient gradient-based architecture search (3 P100 GPU days on Cityscapes images). We demonstrate the effectiveness of the proposed method on the challenging Cityscapes, PASCAL VOC 2012, and ADE20K datasets. Auto-DeepLab, our architecture searched specifically for semantic image segmentation, attains state-of-the-art performance without any ImageNet pretraining.

연구 동기 및 목표

  • 이미지 분류에서 밀집 의미 분할로 신경망 아키텍처 검색을 확장한다.
  • 네트워크 수준과 셀 수준 아키텍처를 포함하는 이층 계층적 검색 공간을 제안한다.
  • 계층을 효율적으로 검색하기 위한 미분 가능하고 그래디언트 기반의 NAS 프레임워크를 개발한다.
  • ImageNet 사전학습 없이도 강력한 분할 성능을 시연하고 최첨단 기준과 비교한다.

제안 방법

  • 공간 해석 두 수준의 계층 구조 검색 공간 정의: 공간 해상도 변화를 위한 네트워크 수준 트렐리스와 계층 연산을 서술하는 셀 수준 DAG.
  • 셀 수준 연산에 대한 알파와 네트워크 수준 전환에 대한 베타를 사용하는 연속적 미분 가능 해석(알파/베타 포함)을 활용한다.
  • split training data (trainA/trainB)에서 그래디언트 기반 업데이트를 사용해 아키텍처 매개변수와 네트워크 가중치를 교대로 최적화한다.
  • 셀에 대해 탐욕적 디코딩(상위 이웃 및 argmax 연산자)으로 이산 아키텍처를 디코딩하고 네트워크 경로에 대해 Viterbi 디코딩을 수행한다.
  • 검색 중 각 해상도에 Atrous Spatial Pyramid Pooling(ASPP) 모듈을 연결하고 단순화된 다중 분기 설정을 사용한다.
  • Cityscapes에서 321x321 크롭으로 처음부터 학습하고 Cityscapes, PASCAL VOC 2012 및 ADE20K에서 평가한다.

실험 결과

연구 질문

  • RQ1신경망 아키텍처 검색을 의미 분할과 같은 밀집 이미지 예측 작업으로 효과적으로 확장할 수 있는가?
  • RQ2네트워크 수준과 셀 수준 아키텍처를 함께 검색하는 것이 셀만 검색하는 것보다 더 나은 성능을 내는가?
  • RQ3고해상도 밀집 예측 작업에서 미분 가능 NAS가 얼마나 효율적일 수 있는가?
  • RQ4ImageNet 사전학습 없이 Auto-DeepLab 변형이 Cityscapes, VOC 2012, ADE20K에서 어떻게 수행하는가?

주요 결과

  • ImageNet 사전학습 없이 Auto-DeepLab-L은 Cityscapes 테스트 세트에서 FRRN-B보다 8.6% 포인트, GridNet보다 10.9% 포인트 더 우수하다.
  • Auto-DeepLab은 사전학습이 있는 DeepLabv3+의 성능에 필적하며 Multi-Adds에서 2.23배 빠르다.
  • 경량형 Auto-DeepLab-S는 Cityscapes 테스트에서 80.9%를 달성하며 파라미터 수가 크게 적은(10.15M) 및 333.25B Multi-Adds.
  • Auto-DeepLab-L은 거친 주석에서 Cityscapes 테스트에서 82.1%를 달성하고 DeepLabv3+보다 55.2% 더 적은 Multi-Adds; 사전학습 없이도 최상의 모델이 Cityscapes의 여러 기준을 능가한다.
  • PASCAL VOC 2012와 ADE20K에서 최상의 Auto-DeepLab 변형은 제한된 사전학습으로 훈련된 여러 최첨단 모델보다 성능이 우수하다; VOC 테스트는 ImageNet/COCO 사전학습 변형에서 최대 85.6% mIOU에 도달.
  • 제안된 미분 가능 이층 NAS는 이전의 밀집 예측 NAS 방법(DPC 등)보다 약 1000배 빠르며 여러 데이터셋에 일반화하는 아키텍처를 찾는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.