Skip to main content
QUICK REVIEW

[논문 리뷰] Convolution by Evolution: Differentiable Pattern Producing Networks

Chrisantha Fernando, Dylan Banarse|arXiv (Cornell University)|2016. 06. 08.
Generative Adversarial Networks and Image Synthesis참고 문헌 30인용 수 24
한 줄 요약

이 논문은 기울기 하강을 통해 가중치를 학습하면서 네트워크 구조를 진화시키는 하이브리드 프레임워크인 미분 가능한 패턴 생성 네트워크(DPPNs)를 소개한다. DPPNs는 157,684개의 가중치를 가진 노이즈 제거 오토인코더를 단지 187개의 파rameter로 압축하여 오미니글롯에서 직접 인코딩된 네트워크보다 뛰어난 일반화 성능을 달성한다.

ABSTRACT

In this work we introduce a differentiable version of the Compositional Pattern Producing Network, called the DPPN. Unlike a standard CPPN, the topology of a DPPN is evolved but the weights are learned. A Lamarckian algorithm, that combines evolution and learning, produces DPPNs to reconstruct an image. Our main result is that DPPNs can be evolved/trained to compress the weights of a denoising autoencoder from 157684 to roughly 200 parameters, while achieving a reconstruction accuracy comparable to a fully connected network with more than two orders of magnitude more parameters. The regularization ability of the DPPN allows it to rediscover (approximate) convolutional network architectures embedded within a fully connected architecture. Such convolutional architectures are the current state of the art for many computer vision applications, so it is satisfying that DPPNs are capable of discovering this structure rather than having to build it in by design. DPPNs exhibit better generalization when tested on the Omniglot dataset after being trained on MNIST, than directly encoded fully connected autoencoders. DPPNs are therefore a new framework for integrating learning and evolution.

연구 동기 및 목표

  • 진화적 구조 탐색과 기울기 기반 가중치 학습을 융합하여 효율적인 신경망 압축을 위한 방법을 개발한다.
  • 구조적 사전 지식 없이도 가중치 학습을 가능하게 하여 표준 CPPNs를 초월한 데이터 효율성과 일반화 성능 향상을 도모한다.
  • 구조적 사전 지식 없이도 복소화 아키텍처와 같은 인덕티브 바이어스를 발견한다.
  • DPPNs가 직접 인코딩된 네트워크보다 일반화 성능과 파라미터 효율성에서 뛰어나다는지를 평가한다.
  • 학습과 진화를 융합하는 데서 라마르크적 진화의 효과성을 탐색한다.

제안 방법

  • 학습된 가중치가 세대 간에 유전되는 라마르크적 진화 알고리즘을 사용하여 빠른 수렴을 가능하게 한다.
  • 네트워크 구조는 NEAT를 통해 진화시키고, 가중치는 역전파와 기울기 하강을 통해 최적화한다.
  • CPPN 유사 아키텍처는 좌표 입력(x, y, 거리, 바이어스)을 출력 픽셀 값 또는 가중치 행렬로 매핑하며, 주기적 및 가우시안 함수 등의 전이 함수를 포함한다.
  • DPPN은 패턴 생성을 통해 전체 가중치 행렬을 생성하는 저차원 유전자를 생성함으로써 오토인코더의 가중치를 인코딩한다.
  • 교차와 돌연변이가 구조와 초기 가중치에 적용되며, MNIST에서 재구성 오차를 통해 적합도를 평가한다.
  • 이 프레임워크는 대규모 네트워크의 HyperNEAT 스타일 간접 인코딩과 오토인코더 가중치의 직접 재구성 모두를 지원한다.

실험 결과

연구 질문

  • RQ1기울기 기반 학습과 진화적 구조 탐색을 융합한 미분 가능한 진화 기반 접근법이 성능을 유지하면서 대규모 신경망을 압축할 수 있는가?
  • RQ2기울기 기반 학습을 진화적 구조 탐색과 융합한 DPPNs가 표준 CPPNs보다 더 나은 일반화 성능을 보이는가?
  • RQ3DPPNs는 구조적 사전 지식 없이도 완전히 연결된 네트워크에서 복소화 아키텍처와 같은 알려진 인덕티브 바이어스를 재발견할 수 있는가?
  • RQ4라마르크적 학습 체계가 다윈적 및 발드반형 대비 수렴 속도와 성능 측면에서 어떻게 비교되는가?
  • RQ5MNIST에서 훈련한 후 DPPNs가 오미니글롯과 같은 분포 외 데이터셋으로 일반화할 수 있는 정도는 어느 정도인가?

주요 결과

  • 187개의 파rameter만을 가진 DPPN이 MNIST 테스트 세트에서 이진 교차 엔트로피(BCE) 0.09를 달성하여 157,684개의 가중치를 가진 오토인코더를 압축했다.
  • DPPN은 복소화 유사 가중치 패턴을 재발견하였으며, 망막 간상세포와 유사한 중심-포지티브 및 중심-오프-포지티브 수용체 필드를 포함했다.
  • 1,000번의 토너먼트 후 DPPN은 테스트 세트의 평균 제곱오차(MSE) 0.01을 달성했으며, 교차가 재구성 품질을 크게 향상시켜 교차 없이 사용했을 경우 MSE 0.03 대비 MSE 0.003로 향상되었다.
  • 오미니글롯 데이터셋으로의 일반화 성능은 BCE 0.121을 기록하여 동일한 파라미터 수를 가진 직접 인코딩된 네트워크보다 뛰어났다.
  • DPPN으로 인코딩된 네트워크는 직접 인코딩된 100노드 네트워크보다 낮은 BCE(0.096)를 기록하여 더 뛰어난 파라미터 효율성을 입증했다(직접 인코딩된 네트워크의 경우 >0.24).
  • 완전히 연결된 오토인코더의 디코딩 레이어에서 DPPN은 28×28 복소화 아키텍처를 발견하였으며, 이는 복소화에 대한 구조적 사전 지식이 전혀 없었음에도 불구하고 가능했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.