QUICK REVIEW

[논문 리뷰] Greedy Layerwise Learning Can Scale to ImageNet

Eugene Belilovsky, Michael Eickenberg|arXiv (Cornell University)|2018. 12. 29.

Advanced Neural Network Applications참고 문헌 52인용 수 24

한 줄 요약

이 논문은 ImageNet에서 엔드투엔드 백프로파게이션 없이도 경쟁 가능한 성능을 달성하는, 그리디하고 계층별로 훈련하는 CNN용 방법을 제안한다. 각 레이어를 순차적으로 훈련하기 위해 얕은 1-또는 k-히든 레이어 보조 문제를 사용하며, ReLU와 컨볼루션과 같은 간단한 아키텍처와 표준 구성 요소를 활용함으로써, 백프로파게이션을 모든 레이어를 거쳐 수행하지 않더라도 AlexNet을 초월하고 VGG-11의 정확도에 도달한다.

ABSTRACT

Shallow supervised 1-hidden layer neural networks have a number of favorable properties that make them easier to interpret, analyze, and optimize than their deep counterparts, but lack their representational power. Here we use 1-hidden layer learning problems to sequentially build deep networks layer by layer, which can inherit properties from shallow networks. Contrary to previous approaches using shallow networks, we focus on problems where deep learning is reported as critical for success. We thus study CNNs on image classification tasks using the large-scale ImageNet dataset and the CIFAR-10 dataset. Using a simple set of ideas for architecture and training we find that solving sequential 1-hidden-layer auxiliary problems lead to a CNN that exceeds AlexNet performance on ImageNet. Extending this training methodology to construct individual layers by solving 2-and-3-hidden layer auxiliary problems, we obtain an 11-layer network that exceeds several members of the VGG model family on ImageNet, and can train a VGG-11 model to the same accuracy as end-to-end learning. To our knowledge, this is the first competitive alternative to end-to-end training of CNNs that can scale to ImageNet. We illustrate several interesting properties of these models theoretically and conduct a range of experiments to study the properties this training induces on the intermediate layers.

연구 동기 및 목표

딥 CNN이 엔드투엔드 백프로파게이션 없이도 ImageNet과 같은 대규모 데이터셋에서 높은 성능을 달성할 수 있는지 조사하는 것.
얕은 부분 문제를 순차적으로 훈련하는 것이 표준 딥러닝 파이프라인과 비교해 경쟁 가능한 결과를 낼 수 있는지 확인하는 것.
계층별 훈련이 점진적인 선형 가분성과 같은 바람직한 표현 특성을 유지하거나 심지어 향상시킬 수 있는지 탐색하는 것.
모델 압축과 병렬 처리 잠재력까지 지원하는 확장 가능하고 메모리 효율적인 훈련 대안을 개발하는 것.
얕은 네트워크 이론에서 잘 이해된 기반을 바탕으로, 딥러닝 메커니즘을 분석할 수 있는 이론적으로 접근 가능한 프레임워크를 제공하는 것.

제안 방법

표준 컨볼루션과 ReLU 구성 요소를 사용하여, 각 CNN 레이어를 순차적으로 훈련하기 위해 감독된 1히든 레이어(또는 k히든 레이어) 보조 학습 문제를 해결하는 것.
각 보조 문제에 대해 글로벌 목표를 사용하여 개별 레이어의 기능적 행동을 직접 지정함으로써 간접적인 기울기 신호를 피하는 것.
각 레이어 훈련 후 즉시 모델 압축(필터 프루닝 및 토닝)을 적용하여 파rameter 수를 줄이고 이후 훈련 속도를 높이는 것.
공간적 다운샘플링과 아키텍처 수정(예: 맥스 풀링)을 사용하여 표준 모델(VGG-11 등)과의 호환성을 유지하는 것.
최종 레이어를 대상 모델의 아키텍처와 일치하는 보조 네트워크를 사용하여 훈련하는 것(예: VGG-11의 완전히 연결된 헤드).
수렴하지 않은 이전 레이어의 중간 표현을 활용하여 이후 레이어 훈련을 향상시키며, 부분 병렬 처리 잠재력이 있음을 시사하는 것.

실험 결과

연구 질문

RQ1얕은 CNN의 그리디 계층별 훈련이 ImageNet에서 엔드투엔드 훈련과 경쟁 가능한 성능을 낼 수 있는가?
RQ2순차적으로 훈련된 레이어는 딥 네트워크 성공과 관련된 점진적인 선형 가분성 성질을 보이는가?
RQ31-또는 3히든 레이어 보조 문제만으로도 VGG와 같은 더 깊은 모델의 성능을 재현할 수 있는가?
RQ4계층별 훈련 파이프라인에 모델 압축을 통합하면 정확도를 유지하면서 모델 크기를 줄일 수 있는가?
RQ5이전 유사 접근 방식이 ImageNet에서 실패한 바가 있음에도 불구하고, 이 방법은 대규모 데이터셋에 대해 확장 가능한가?

주요 결과

그리디 계층별 방법은 1히든 레이어 보조 문제만 훈련함으로써 ImageNet에서 AlexNet 성능을 초월한다.
11레이어 네트워크를 3히든 레이어 보조 문제를 사용해 훈련한 결과, 여러 VGG 모델 변종과 비교해 ImageNet에서 유사한 성능을 달성한다.
동일한 45에포크 스케줄과 아키텍처 구성 조건을 사용할 경우, 엔드투엔드로 훈련된 VGG-11의 정확도를 그대로 따라잡는다.
각 레이어 훈련 후 압축(128에서 64 필터로 프루닝)을 적용한 결과, CIFAR-10에서 정확도가 0.1% 감소할 뿐이었고, 정확도는 87.6%에서 87.5%로 떨어졌다.
수렴하지 않은 초기 레이어의 특징조차도 이후 레이어 훈련 향상에 활용될 수 있었으며, 이는 부분 병렬 처리 잠재력이 있음을 시사한다.
이 방법은 동일한 메모리 제약 조건 하에서 엔드투엔드 방법보다 더 큰 모델을 훈련시킬 수 있어, 메모리 제약이 있는 환경이나 대규모 응용 분야에 유리하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.