Skip to main content
QUICK REVIEW

[논문 리뷰] Predicting Neural Network Accuracy from Weights

Thomas Unterthiner, Daniel Keysers|arXiv (Cornell University)|2020. 02. 26.
Adversarial Robustness in Machine Learning참고 문헌 33인용 수 38
한 줄 요약

논문은 CNN의 기대 정확도가 단지 학습된 가중치만으로 예측될 수 있음을 간단한 통계와 기계 학습 모델을 사용하여 보여주고, 이 예측 신호가 데이터셋과 아키텍처 간에 전이될 수 있음을 보여준다.

ABSTRACT

We show experimentally that the accuracy of a trained neural network can be predicted surprisingly well by looking only at its weights, without evaluating it on input data. We motivate this task and introduce a formal setting for it. Even when using simple statistics of the weights, the predictors are able to rank neural networks by their performance with very high accuracy (R2 score more than 0.98). Furthermore, the predictors are able to rank networks trained on different, unobserved datasets and with different architectures. We release a collection of 120k convolutional neural networks trained on four different datasets to encourage further research in this area, with the goal of understanding network training and performance better.

연구 동기 및 목표

  • 가중치 만으로 CNN 정확도를 예측하는 문제를 동기 부여하고 형식화한다.
  • 연구를 가능하게 하기 위한 다양한 하이퍼파라미터와 데이터셋을 가진 대규모 CNN 데이터셋을 생성하고 공개한다.
  • 가중치 기반 예측기가 높은 신뢰도로 정확도에 따라 네트워크를 순위화할 수 있음을 보여준다 (R^2).
  • 데이터셋과 아키텍처 간 예측 신호의 전이(도메인 시프트)를 탐구한다.

제안 방법

  • 입력 데이터를 예측 도중에 접근하지 않고 학습된 가중치를 예상 정확도로 매핑하는 형식적 설정.
  • 고정된 작은 CNN 아키텍처로 4개 데이터셋, 데이터셋당 30k 구성을 갖는 Small CNN Zoo 데이터셋을 구성한다.
  • 가중치 기반 피처를 테스트 정확도로 매핑하기 위해 여러 예측 모델(GBM, DNN, L-Linear)을 학습하고 교차 검증으로 최적화한다.
  • 가중치에서의 입력 피처 표현을 탐구한다(전체 평탄화된 가중치, 계층별 통계, 가중치 노름).
  • 데이터셋/아키텍처 간 전이를 위한 예측 성능을 R^2, MSE, Kendall의 타우로 평가한다.

실험 결과

연구 질문

  • RQ1학습된 가중치만으로 보지 못한 데이터에서 CNN의 기대 정확도를 예측할 수 있는가?
  • RQ2간단한 가중치 기반 통계가 서로 다른 데이터셋과 아키텍처에서 정확도를 얼마나 잘 예측하는가(도메인 시프트)?
  • RQ3어떤 가중치 유도 피처가 정확도를 가장 잘 예측하고, 서로 다른 예측기들은 어떻게 비교되는가?
  • RQ4작은 아키텍처에서 큰(초과 매개변수화된) 아키텍처로 이동할 때 예측 능력의 전이가 유지되는가?

주요 결과

  • GBM 및 DNN 예측기가 모든 데이터셋에서 로그리니어 기준선보다 우수하다; 계층별 통계 ϑW_Lϑ 을 가진 GBM이 가장 강한 성능을 달성한다.
  • 전체 평탄화 가중치 벡터 W 또는 마지막 밀집층 W^4 만으로도 강한 예측 성능을 보이며, 계층별 통계 ϑW_Lϑ 가 종종 최고를 기록한다(예를 들어 일부 데이터셋에서 R^2가 약 0.993까지).
  • 계층별 통계 ϑW_Lϑ 은 예측에 가장 강하고 데이터 효율이 높은 피처를 제공하며, 여러 경우에서 원시 가중치나 계층별 노름을 능가한다.
  • 하나의 데이터셋에서 학습된 예측기가 다른 데이터셋에서 학습된 네트워크의 순위를 합리적으로 매길 수 있으며, Kendall의 타우 값이 의미 있는 순위 상관을 나타낸다(일부 전이에서 최대 0.93).
  • 예측은 가중치 스케일링 및 합성곱 층의 순열과 같은 일부 불변성을 보이며, 그러나 모델은 최종 밀집층의 순열에 가장 민감하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.