QUICK REVIEW

[논문 리뷰] Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

Chenxi Liu, Liang-Chieh Chen|arXiv (Cornell University)|2019. 01. 10.

Advanced Neural Network Applications참고 문헌 93인용 수 149

한 줄 요약

Auto-DeepLab은 네트워크 수준과 셀 수준 구조를 함께 최적화하는 계층적 신경망 구조 탐색(NAS)을 도입하여, ImageNet 사전학습 없이도 강력한 결과를 달성하고 효율적인 탐색(~3 GPU일)

ABSTRACT

Recently, Neural Architecture Search (NAS) has successfully identified neural network architectures that exceed human designed ones on large-scale image classification. In this paper, we study NAS for semantic image segmentation. Existing works often focus on searching the repeatable cell structure, while hand-designing the outer network structure that controls the spatial resolution changes. This choice simplifies the search space, but becomes increasingly problematic for dense image prediction which exhibits a lot more network level architectural variations. Therefore, we propose to search the network level structure in addition to the cell level structure, which forms a hierarchical architecture search space. We present a network level search space that includes many popular designs, and develop a formulation that allows efficient gradient-based architecture search (3 P100 GPU days on Cityscapes images). We demonstrate the effectiveness of the proposed method on the challenging Cityscapes, PASCAL VOC 2012, and ADE20K datasets. Auto-DeepLab, our architecture searched specifically for semantic image segmentation, attains state-of-the-art performance without any ImageNet pretraining.

연구 동기 및 목표

이미지 분류에서 밀집 의미 분할로 신경망 아키텍처 검색을 확장한다.
네트워크 수준과 셀 수준 아키텍처를 포함하는 이층 계층적 검색 공간을 제안한다.
계층을 효율적으로 검색하기 위한 미분 가능하고 그래디언트 기반의 NAS 프레임워크를 개발한다.
ImageNet 사전학습 없이도 강력한 분할 성능을 시연하고 최첨단 기준과 비교한다.

제안 방법

공간 해석 두 수준의 계층 구조 검색 공간 정의: 공간 해상도 변화를 위한 네트워크 수준 트렐리스와 계층 연산을 서술하는 셀 수준 DAG.
셀 수준 연산에 대한 알파와 네트워크 수준 전환에 대한 베타를 사용하는 연속적 미분 가능 해석(알파/베타 포함)을 활용한다.
split training data (trainA/trainB)에서 그래디언트 기반 업데이트를 사용해 아키텍처 매개변수와 네트워크 가중치를 교대로 최적화한다.
셀에 대해 탐욕적 디코딩(상위 이웃 및 argmax 연산자)으로 이산 아키텍처를 디코딩하고 네트워크 경로에 대해 Viterbi 디코딩을 수행한다.
검색 중 각 해상도에 Atrous Spatial Pyramid Pooling(ASPP) 모듈을 연결하고 단순화된 다중 분기 설정을 사용한다.
Cityscapes에서 321x321 크롭으로 처음부터 학습하고 Cityscapes, PASCAL VOC 2012 및 ADE20K에서 평가한다.

실험 결과

연구 질문

RQ1신경망 아키텍처 검색을 의미 분할과 같은 밀집 이미지 예측 작업으로 효과적으로 확장할 수 있는가?
RQ2네트워크 수준과 셀 수준 아키텍처를 함께 검색하는 것이 셀만 검색하는 것보다 더 나은 성능을 내는가?
RQ3고해상도 밀집 예측 작업에서 미분 가능 NAS가 얼마나 효율적일 수 있는가?
RQ4ImageNet 사전학습 없이 Auto-DeepLab 변형이 Cityscapes, VOC 2012, ADE20K에서 어떻게 수행하는가?

주요 결과

ImageNet 사전학습 없이 Auto-DeepLab-L은 Cityscapes 테스트 세트에서 FRRN-B보다 8.6% 포인트, GridNet보다 10.9% 포인트 더 우수하다.
Auto-DeepLab은 사전학습이 있는 DeepLabv3+의 성능에 필적하며 Multi-Adds에서 2.23배 빠르다.
경량형 Auto-DeepLab-S는 Cityscapes 테스트에서 80.9%를 달성하며 파라미터 수가 크게 적은(10.15M) 및 333.25B Multi-Adds.
Auto-DeepLab-L은 거친 주석에서 Cityscapes 테스트에서 82.1%를 달성하고 DeepLabv3+보다 55.2% 더 적은 Multi-Adds; 사전학습 없이도 최상의 모델이 Cityscapes의 여러 기준을 능가한다.
PASCAL VOC 2012와 ADE20K에서 최상의 Auto-DeepLab 변형은 제한된 사전학습으로 훈련된 여러 최첨단 모델보다 성능이 우수하다; VOC 테스트는 ImageNet/COCO 사전학습 변형에서 최대 85.6% mIOU에 도달.
제안된 미분 가능 이층 NAS는 이전의 밀집 예측 NAS 방법(DPC 등)보다 약 1000배 빠르며 여러 데이터셋에 일반화하는 아키텍처를 찾는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.