QUICK REVIEW

[논문 리뷰] NoiseOut: A Simple Way to Prune Neural Networks

Mohammad Babaeizadeh, Paris Smaragdis|arXiv (Cornell University)|2016. 11. 18.

Advanced Neural Network Applications참고 문헌 11인용 수 23

한 줄 요약

NoiseOut는 히든 레이어의 상호상관성이 높은 뉴런을 병합함으로써 모델 크기를 줄이는 완전 자동화된 신경망 프루닝 방법이다. 훈련 중에 무작위 '노이즈 출력'을 추가함으로써 활성화 상관관계를 증가시켜 극단적인 프루닝을 가능하게 하며, LeNet-5에서 정확도 손실 없이 최대 97.75%의 파rameter 감소를 달성함과 동시에 최신 압축률을 유지한다.

ABSTRACT

Neural networks are usually over-parameterized with significant redundancy in the number of required neurons which results in unnecessary computation and memory usage at inference time. One common approach to address this issue is to prune these big networks by removing extra neurons and parameters while maintaining the accuracy. In this paper, we propose NoiseOut, a fully automated pruning algorithm based on the correlation between activations of neurons in the hidden layers. We prove that adding additional output neurons with entirely random targets results into a higher correlation between neurons which makes pruning by NoiseOut even more efficient. Finally, we test our method on various networks and datasets. These experiments exhibit high pruning rates while maintaining the accuracy of the original network.

연구 동기 및 목표

과도하게 파ram터화된 신경망이 중복된 파라미터로 인해 높은 추론 비용을 유발하는 데 기인한 비효율성을 해결하기 위해.
재학습이나 하이퍼파ram터 튜닝 없이도 완전 자동화된 프루닝 방법을 개발하기 위해.
히든 레이어의 뉴런 활성화 간 상관관계를 증가시켜 프루닝 효과를 향상시키기 위해.
무작위 노이즈 출력을 추가함으로써 상관관계가 향상되고 더 강력하고 정확한 프루닝이 가능해지는지 입증하기 위해.

제안 방법

NoiseOut은 활성화 유사도를 기반으로 각 히든 레이어에서 상관관계가 가장 높은 두 뉴런을 반복적으로 병합함으로써 네트워크를 프루닝한다.
이 방법은 전방 전파, 상관관계 탐지, 가중치 조정을 반복하는 뉴런 병합을 포함하는 훈련 루프를 사용한다.
핵심 혁신은 훈련 중에 무작위 타겟을 가진 노이즈 출력을 추가하여 히든 뉴런 활성화 간의 상관관계를 인위적으로 증가시키는 것이다.
상관관계 및 프루닝 효율성에 미치는 영향을 평가하기 위해 정규분포, 이항분포, 상수 분포 등 다양한 노이즈 분포를 시험한다.
정확도가 사전 정의된 임계값 이하로 떨어지지 않을 때까지 프루닝을 계속하여 성능 저하를 최소화한다.
알고리즘은 각 히든 레이어에 대해 별도로 적용되며, 완전 연결 레이어를 포함한 컨볼루션 네트워크로도 확장 가능하다.

실험 결과

연구 질문

RQ1훈련 중에 무작위 노이즈 출력을 추가하면 히든 뉴런 활성화 간 상관관계가 증가하는가?
RQ2뉴런 활성화 간 상관관계가 높을수록 더 효과적이고 극단적인 프루닝이 가능한가?
RQ3NoiseOut은 정확도 손실 없이 높은 압축률을 달성할 수 있는가?
RQ4다양한 노이즈 분포(Gaussian, Binomial, Constant)가 프루닝 성능과 상관관계에 어떤 영향을 미치는가?
RQ5NoiseOut 방법은 다양한 네트워크 아키텍처와 데이터셋에 대해 강건한가?

주요 결과

LeNet-5에서 MNIST 데이터셋을 사용할 때 NoiseOut은 최대 97.75%의 파라미터 감소를 달성했으며, 오차율 0.95%를 유지하여 모델 크기를 44배로 축소시켰다.
정규분포 노이즈를 사용할 경우, LeNet-300-100에서는 파라미터의 94.02%를 제거했고 정확도 손실 없이 16.73배의 압축률을 달성했다.
SVHN 데이터셋에서 NoiseOut은 깊은 CNN에서 파라미터의 85.39%를 제거했으며, 훈련 정확도 93.39%를 유지했다.
노이즈 출력 추가로 히든 레이어의 활성화 상관관계가 크게 증가했으며, 이항분포 노이즈는 초기 상관관계 증가가 두드러졌다.
모든 실험에서 훈련 및 테스트 정확도 간 일반화가 안정적이었기 때문에, NoiseOut 프루닝은 과적합을 유발하지 않았다.
재학습이나 수동 하이퍼파ram터 튜닝 없이도 최신 압축률을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.