QUICK REVIEW

[논문 리뷰] OTOV2: Automatic, Generic, User-Friendly

Tianyi Chen, Luming Liang|arXiv (Cornell University)|2023. 03. 13.

Advanced Neural Network Applications인용 수 7

한 줄 요약

OTOv2는 일반 DNN을 처음부터 한 번에 학습하고 압축하며, 매개변수를 Zero-Invariant Groups (ZIGs)로 자동으로 분할하고 새로운 DHSPG 옵티마이저로 구조적 희소성 문제를 해결하여 미세 조정 없이 더 얇은 모델을 생성합니다.

ABSTRACT

The existing model compression methods via structured pruning typically require complicated multi-stage procedures. Each individual stage necessitates numerous engineering efforts and domain-knowledge from the end-users which prevent their wider applications onto broader scenarios. We propose the second generation of Only-Train-Once (OTOv2), which first automatically trains and compresses a general DNN only once from scratch to produce a more compact model with competitive performance without fine-tuning. OTOv2 is automatic and pluggable into various deep learning applications, and requires almost minimal engineering efforts from the users. Methodologically, OTOv2 proposes two major improvements: (i) Autonomy: automatically exploits the dependency of general DNNs, partitions the trainable variables into Zero-Invariant Groups (ZIGs), and constructs the compressed model; and (ii) Dual Half-Space Projected Gradient (DHSPG): a novel optimizer to more reliably solve structured-sparsity problems. Numerically, we demonstrate the generality and autonomy of OTOv2 on a variety of model architectures such as VGG, ResNet, CARN, ConvNeXt, DenseNet and StackedUnets, the majority of which cannot be handled by other methods without extensive handcrafting efforts. Together with benchmark datasets including CIFAR10/100, DIV2K, Fashion-MNIST, SVNH and ImageNet, its effectiveness is validated by performing competitively or even better than the state-of-the-arts. The source code is available at https://github.com/tianyic/only_train_once.

연구 동기 및 목표

사전 학습이나 미세 조정 없이 DNN의 원샷 학습과 압축을 자동화한다.
최소 제거 구조(ZIGs)를 자동으로 식별하고 압축된 모델을 구성한다.
희소성과 성능을 신뢰성 있게 제어하는 구조적 희소 최적화기(DHSPG)를 개발한다.
다양한 아키텍처와 데이터셋에서 강건성과 일반성을 입증한다.

제안 방법

출력이 0일 때도 변경되지 않는 최소 제거 구조로서 Zero-Invariant Groups (ZIGs)를 소개한다.
trace 그래프와 의존성의 연결된 컴포넌트를 통해 DNN을 자동으로 ZIG로 분해하는 Automated ZIG Partition을 개발한다.
그룹별 자동 정규화를 가진 제약된 그룹 희소성 문제를 풀기 위해 Dual Half-Space Projected Gradient (DHSPG)를 제안한다.
제로화된 ZIG를 제거하고 남은 구조를 재구성하여 미세 조정 없이 압축된 모델 M*를 구성한다.
ZIG 분할 및 압축 단계의 선형 시간 복잡도를, DHSPG 최적화를 선형 시간으로 보여준다.
다양한 아키텍처(VGG, ResNet, CARN, ConvNeXt, DenseNet, StackedUnets)와 데이터셋(CIFAR10/100, DIV2K, Fashion-MNIST, SVNH, ImageNet)에서 검증한다.

Figure 1: OTOv2 versus existing methods.

실험 결과

연구 질문

RQ1사전 학습이나 미세 조정 없이 일반 DNN을 한 번에 학습하고 압축할 수 있는가?
RQ2학습 가능한 매개변수를 다양한 아키텍처에서 자동으로 ZIG로 분할할 수 있는가?
RQ3DHSPG가 광범위한 하이퍼파라미터 튜닝 없이도 높은 그룹 희소성을 신뢰성 있게 달성하고 성능을 유지하는가?
RQ4자동으로 구성된 압축 모델이 추가 학습 없이 전체 모델과 동일한 출력을 보존하는가?

주요 결과

Backend	Dataset	Method	FLOPs	# of Params	Top-1 Acc.
DemoNet	Fashion-MNIST	Baseline	100%	100%	84.5%
DemoNet	Fashion-MNIST	OTOv2	24.0%	23.3%	84.3%
StackedUnets	SVNH	Baseline	100%	100%	94.8%
StackedUnets	SVNH	OTOv2	26.4%	17.0%	94.7%
DenseNet121	CIFAR100	Baseline	100%	100%	77.0%
DenseNet121	CIFAR100	OTOv2	20.8%	26.7%	75.5%
ConvNeXt-Tiny	ImageNet	Baseline	100%	100%	82.0%
ConvNeXt-Tiny	ImageNet	OTOv2	52.8%	54.2%	81.1%

OTOv2는 다양한 아키텍처와 데이터셋에서 경쟁력 있거나 최첨단 수준의 정확도를 유지하면서 FLOPs 및 매개변수 수를 크게 감소시킨다.
Fashion-MNIST의 DemoNet은 Top-1 정확도에서 0.1-0.2%만 하락하고 FLOPs/매개변수 감소가 73.6-83.0%에 달한다.
SVNH의 StackedUnets는 94.7%의 Top-1 정확도를 유지하며 FLOPs는 26.4%, 매개변수는 17.0% 감소(기준 94.8%에서).
CIFAR100의 DenseNet121은 FLOPs를 20.8%로, 매개변수를 26.7%로 줄이고 정확도는 75.5%(기준 77.0%).
ImageNet의 ConvNeXt-Tiny는 FLOPs를 52.8%, 매개변수를 54.2%로 줄이고 정확도는 81.1%(기준 82.0%).
CIFAR10의 VGG16은 OTOv2를 통해 압축 시 경쟁력 있는 정확도를 보이며 큰 압축을 달성한다(표 2 결과).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.