QUICK REVIEW

[논문 리뷰] Training Compact Neural Networks via Auxiliary Overparameterization.

Yifan Liu, Bohan Zhuang|arXiv (Cornell University)|2019. 09. 05.

Machine Learning and Data Classification인용 수 7

한 줄 요약

이 논문은 훈련 중에 압축된 신경망을 확장하여 최적화 및 일반화를 향상시키는 보조 과다파ram터화 모듈을 제안한다. 추론 시에는 원래의 압축된 네트워크만 유지한다. 계층적 보조 구조를 자동으로 탐색함으로써, 테스트 시 비용 증가 없이 완전히 과다파라미터화된 모델과 유사한 성능 향상을 달성한다.

ABSTRACT

It is observed that overparameterization (i.e., designing neural networks whose number of parameters is larger than statistically needed to fit the training data) can improve both optimization and generalization while compact networks are more difficult to be optimized. However, overparameterization leads to slower test-time inference speed and more power consumption. To tackle this problem, we propose a novel auxiliary module to simulate the effect of overparameterization. During training, we expand the compact network with the auxiliary module to formulate a wider network to assist optimization while during inference only the original compact network is kept. Moreover, we propose to automatically search the hierarchical auxiliary structure to avoid adding supervisions heuristically. In experiments, we explore several challenging resource constraint tasks including light-weight classification, semantic segmentation and multi-task learning with hard parameter sharing. We empirically find that the proposed auxiliary module can maintain the complexity of the compact network while significantly improving the performance.

연구 동기 및 목표

압축된 신경망의 최적화 과제를 해결하기 위해, 효율성은 유지하면서 훈련이 어려운 모델에 대응한다.
과다파라미터화의 이점을 — 즉, 최적화 및 일반화 향상 — 시뮬레이션하면서 추론 시 모델 크기를 증가시키지 않는다.
계층적 보조 구조의 설계를 자동화하여 보조 모듈 구축 시 히ュ리스틱 감독을 피한다.
경량 분류, 세분화, 다중 작업 학습과 같은 자원 제약 환경에서 압축 모델의 효율적 훈련을 가능하게 한다.

제안 방법

압축된 네트워크를 훈련 중에 확장하여 더 넓고 더 훈련하기 쉬운 아키텍처를 만드는 보조 모듈을 도입한다.
표준 역전파를 사용하여 확장된 네트워크를 훈련하며, 보조 모듈의 능력을 활용해 최적화를 용이하게 한다.
추론 시에는 보조 모듈을 기각하고 오직 원래의 압축된 네트워크만 사용하여 효율성을 유지한다.
보조 모듈의 계층적 구조를 자동으로 학습하기 위한 미분 가능 탐색 기법을 제안한다.
탄력적이고 구조화된 과다파라미터화를 가능하게 하되 계산의 타당성을 유지하는 탐색 공간을 사용한다.
다양한 자원 제약이 있는 작업에 적용한다. 이는 다중 작업 학습에서의 파라미터 공유를 포함한다.

실험 결과

연구 질문

RQ1보조 과다파라미터화가 추론 비용 증가 없이 압축된 신경망의 훈련 동역학을 향상시킬 수 있는가?
RQ2수동으로 설계된 것과 비교해 자동으로 계층적 보조 구조를 탐색하는 것이 얼마나 효과적인가?
RQ3이 방법이 자원 제약이 있는 작업에서 압축 모델과 과다파라미터화 모델 간의 성능 격차를 어느 정도 줄일 수 있는가?
RQ4이 방법은 이미지 분류, 세분화, 다중 작업 학습과 같은 다양한 작업에 일반화되는가?

주요 결과

제안된 방법은 다양한 작업에서 압축된 네트워크의 성능을 크게 향상시키며, 완전히 과다파라미터화된 모델과 동일하거나 이를 초월한다.
보조 과다파라미터화 덕분에 기저 네트워크가 작고 훈련하기 어려운 경우에도 더 나은 최적화 및 일반화가 가능하다.
보조 구조에 대한 자동 탐색은 히ュ리스틱 설계보다 더 높은 성능을 내어 탐색 기법의 효과성을 입증한다.
이 방법은 원래의 압축 모델의 추론 속도와 메모리 사용량을 그대로 유지하므로, 엣지 배포에 적합하다.
실증 결과는 경량 분류, 세분화, 하드 파라미터 공유가 있는 다중 작업 학습에서 일관된 정확도 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.