Skip to main content
QUICK REVIEW

[논문 리뷰] AdaNet: Adaptive Structural Learning of Artificial Neural Networks

Corinna Cortes, Xavi Gonzalvo|arXiv (Cornell University)|2016. 07. 05.
Machine Learning and ELM참고 문헌 46인용 수 107
한 줄 요약

AdaNet은 데이터 의존 일반화 보장을 갖춘 신경망의 구조와 가중치를 모두 학습하며, CIFAR-10 이진 작업에서 표준 접근법과 경쟁적으로 일치함을 시연한다.

ABSTRACT

We present new algorithms for adaptively learning artificial neural networks. Our algorithms (AdaNet) adaptively learn both the structure of the network and its weights. They are based on a solid theoretical analysis, including data-dependent generalization guarantees that we prove and discuss in detail. We report the results of large-scale experiments with one of our algorithms on several binary classification tasks extracted from the CIFAR-10 dataset. The results demonstrate that our algorithm can automatically learn network structures with very competitive performance accuracies when compared with those achieved for neural networks found by standard approaches.

연구 동기 및 목표

  • 네트워크 아키텍처의 적응 학습을 통해 수동 설계 및 하이퍼파라미터 조정을 피하도록 동기를 부여한다.
  • 아키텍처와 가중치를 모두 학습하는 이론적 일반화 보장을 제공한다.
  • 복잡도를 통제하면서 네트워크 구조를 증가시키는 AdaNet 알고리즘을 개발하고 분석한다.
  • CIFAR-10 파생 작업에서 적응형 네트워크의 경험적 경쟁력을 입증한다.

제안 방법

  • 레이어 간 연결 및 출력까지 허용하는 광범위하고 일반적인 네트워크 가설 클래스를 정의한다.
  • 레이어별 램다배 가능한 복잡성과 여유 보장을 이용한 데이터 의존 일반화 경계를 도출한다.
  • Rademacher 복잡성과 데이터 의존 정규화 용어를 기반으로 한 명시적인 규제 항을 갖는 합성적인 대체 수단으로서의 AdaNet 목적 함수를 제안한다.
  • 경험적 손실의 볼록 대체 함수를 최소화하고 복잡도 패널티를 더해 같은 깊이 혹은 더 깊은 서브네트워크를 점진적으로 추가하기 위해 부스팅과 유사한 블록 좌표 하강법을 사용한다.
  • 각 반복에서 두 개의 후보 서브네트워크를 제시하고 목표 함수를 가장 많이 개선하는 쪽을 선택하되, 서로 다른 약학습 전략을 사용할 수 있다.

실험 결과

연구 질문

  • RQ1학습 중에 네트워크 구조를 적응적으로 학습하면서 일반화 보장을 제공할 수 있는가?
  • RQ2데이터 의존 복잡도 측정이 네트워크 구조의 추가를 어떻게 안내하여 적합도와 용량의 균형을 잡는가?
  • RQ3적응적으로 학습된 아키텍처가 고정되어 있는 아키텍처 및 간단한 기준선과 비교해 이미지 분류 작업에서 경쟁력 있는 성능을 달성하는가?
  • RQ4훈련 중 서브네트워크를 구성하고 선택하는 데 있어 이론의 실용적 시사점은 무엇인가?

주요 결과

레이블 쌍AdaNetLRNNNN-GP
deer-truck0.9372 ± 0.00820.8997 ± 0.00660.9213 ± 0.00650.9220 ± 0.0069
deer-horse0.8430 ± 0.00760.7685 ± 0.01190.8055 ± 0.01780.8060 ± 0.0181
automobile-truck0.8461 ± 0.00690.7976 ± 0.00760.8063 ± 0.00640.8056 ± 0.0138
cat-dog0.6924 ± 0.01290.6664 ± 0.00990.6595 ± 0.01410.6607 ± 0.0097
dog-horse0.8350 ± 0.00890.7968 ± 0.01280.8066 ± 0.00870.8087 ± 0.0109
  • AdaNet은 아키텍처와 가중치를 모두 학습하는 데 대한 데이터 의존 일반화 경계를 제공한다.
  • 경계는 네트워크의 연결 강도로 주어진 가중 평균으로 표현되는 층 복잡도의 가중 평균에 의존하며, 이로써 이득이 있을 때 저층에 더 많은 비중을 두도록 한다.
  • CIFAR-10 이진 작업에서 AdaNet은 로지스틱 회귀 및 표준 신경망과 비교해 경쟁력 있는 정확도를 달성하는 것으로 나타났다.
  • AdaNet 아키텍처는 많은 쌍에서 희소하고 얕은 경향을 보이나 필요한 경우 더 깊어질 수 있다(예: 고양이-개).
  • 다른 AdaNet 변형 및 약학습 전략은 작업 간 정확도에서 강건성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.