QUICK REVIEW

[논문 리뷰] Learning Time/Memory-Efficient Deep Architectures with Budgeted Super Networks

Tom Véniat, Ludovic Denoyer|arXiv (Cornell University)|2017. 05. 31.

Advanced Neural Network Applications참고 문헌 41인용 수 74

한 줄 요약

이 논문은 Budgeted Super Networks(BSN)를 도입하여 계산, 메모리 또는 분산 비용 중 하나에 대한 예산 제약 하에서 신경망 아키텍처를 자동으로 발견하고, 확률적 최적화 프레임워크와 정책-경사 학습을 사용합니다.

ABSTRACT

We propose to focus on the problem of discovering neural network architectures efficient in terms of both prediction quality and cost. For instance, our approach is able to solve the following tasks: learn a neural network able to predict well in less than 100 milliseconds or learn an efficient model that fits in a 50 Mb memory. Our contribution is a novel family of models called Budgeted Super Networks (BSN). They are learned using gradient descent techniques applied on a budgeted learning objective function which integrates a maximum authorized cost, while making no assumption on the nature of this cost. We present a set of experiments on computer vision problems and analyze the ability of our technique to deal with three different costs: the computation cost, the memory consumption cost and a distributed computation cost. We particularly show that our model can discover neural network architectures that have a better accuracy than the ResNet and Convolutional Neural Fabrics architectures on CIFAR-10 and CIFAR-100, at a lower cost.

연구 동기 및 목표

Predictive quality와 추론 비용의 균형이 필요한 신경망 아키텍처의 필요성에 대한 동기 부여.
특정 비용 형태를 가정하지 않고 최대 비용을 강제하는 예산 학습 프레임워크를 제안.
계산, 메모리 또는 분산 비용 제약 하에서 정확도를 최적화하는 아키텍처의 탐색 enabling.
CIFAR-10/100 및 이미지 분할 task에서 ResNet 및 CNF 베이스라인과의 비교를 통해 효과성 시연.

제안 방법

큰 Super Network(S-network)를 모듈이 학습 가능 매개변수를 가지는 DAG로 정의; 아키텍처는 이 S-network의 부분 그래프에 대응.
비용 제약 C와 허용 최대 비용 C̄를 소형 목표에 페널티 항으로 포함하는 Budgeted Super Networks(BSN)를 도입.
각 예측 전 에 Γ로 파라미터화된 분포에서 간선에 대한 이진 마스크 H를 샘플링하는 확률적 SS-network를 도입하여 조합적 탐색을 완화.
예측 손실에 비용 페널티 λ max(0, C(H ⊙ E) − C̄)를 더한 예산화 목표를 구성.
θ(모듈 매개변수)와 Γ(간선 샘플링 매개변수)를 함께 업데이트하기 위한 정책-경사 유사 그래디언트를 도출.
확률적 문제를 해결하는 것이 최적의 제약 해를 얻도록 한다는 것을 보임(정리 1).

실험 결과

연구 질문

RQ1BSN이 특정 비용 예산을 충족하면서 정확도를 유지하거나 향상시키는 네트워크 아키텍처를 발견할 수 있는가?
RQ2계산, 메모리, 분산 계산 등 서로 다른 비용 유형에서 BSN의 성능은 표준 아키텍처와 비교하여 어떤가?
RQ3훈련 중 확률적 간선 샘플링 방법이 결정적이고 예산을 준수하는 아키텍처로 수렴하는가?
RQ4발견된 예산형 아키텍처가 CIFAR-10/100 및 Part Label 분할에서 ResNet/CNF 베이스라인과 경쟁력 있거나 우수한가?

주요 결과

BSN은 CIFAR-10/CIFAR-100에서 ResNet/CNF 베이스라인보다 더 높은 정확도를 비슷하거나 낮은 비용에서 달성하는 아키텍처를 발견할 수 있다.
CIFAR-10에서 B-ResNet은 39.25백만 FLOPs에서 92.39%의 정확도에 도달, ResNet-20의 40.9백만 FLOPs(92.19%)를 능가한다.
CIFAR-10에서 B-CNF는 CNF 베이스라인 대비 상당히 감소된 FLOPs에서도 주목할 만한 정확도 향상을 보인다(예: 103백만 FLOPs에서 93.14% vs CNF 406백만 FLOPs에서 92.54%).
CIFAR-100에서는 예산화된 변형들이 표준 ResNet 및 MSDNet 베이스라인 대비 감소된 FLOPs로 경쟁력 있는 정확도를 달성한다.
BSN은 아키텍처를 여러 코어에 분산 가능하도록 학습시키며, n=2 또는 n=4 코어 사용 시 병렬화된 구조를 드러내고 주어진 분산 비용에 적응한다.
학습 다이내믹스는 간선 확률이 최종적으로 결정적으로 수렴함을 보여 주어진 예산형 아키텍처로의 수렴을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.