[論文レビュー] OTOV2: Automatic, Generic, User-Friendly
OTOv2は、スクラッチから一般的なDNNを一括で訓練・圧縮し、パラメータをZero-Invariant Groups (ZIGs)へ自動的に分割し、新規の DHSPG オプティマイザで構造的スパース性問題を解決してファインチューニングなしにスリムなモデルを作成する。
The existing model compression methods via structured pruning typically require complicated multi-stage procedures. Each individual stage necessitates numerous engineering efforts and domain-knowledge from the end-users which prevent their wider applications onto broader scenarios. We propose the second generation of Only-Train-Once (OTOv2), which first automatically trains and compresses a general DNN only once from scratch to produce a more compact model with competitive performance without fine-tuning. OTOv2 is automatic and pluggable into various deep learning applications, and requires almost minimal engineering efforts from the users. Methodologically, OTOv2 proposes two major improvements: (i) Autonomy: automatically exploits the dependency of general DNNs, partitions the trainable variables into Zero-Invariant Groups (ZIGs), and constructs the compressed model; and (ii) Dual Half-Space Projected Gradient (DHSPG): a novel optimizer to more reliably solve structured-sparsity problems. Numerically, we demonstrate the generality and autonomy of OTOv2 on a variety of model architectures such as VGG, ResNet, CARN, ConvNeXt, DenseNet and StackedUnets, the majority of which cannot be handled by other methods without extensive handcrafting efforts. Together with benchmark datasets including CIFAR10/100, DIV2K, Fashion-MNIST, SVNH and ImageNet, its effectiveness is validated by performing competitively or even better than the state-of-the-arts. The source code is available at https://github.com/tianyic/only_train_once.
研究の動機と目的
- 事前学習やファインチューニングなしに、DNNのワンショット訓練と圧縮を自動化する。
- 自動的に最小限の削除構造(ZIGs)を識別し、圧縮モデルを構築する。
- 構造的スパース性最適化器(DHSPG)を開発し、スパース性と性能を信頼性高く制御する。
- 多様なアーキテクチャとデータセットに対する頑健性と一般性を示す。
提案手法
- 出力を変えずにゼロ化されたときにプリューン可能な最小削除構造としてZero-Invariant Groups (ZIGs)を導入する。
- トレースグラフと依存性の連結成分を用いて、DNNを自動的にZIGsへ分解するAutomated ZIG Partitionを開発する。
- 自動正則化を各グループごとに行い、制約付きグループスパース性問題を解くDual Half-Space Projected Gradient (DHSPG)を提案する。
- ゼロ化されたZIGsを除去し、残りの構造をファインチューニングせずに再構成して圧縮モデルM*を構築する。
- ZIG分割と圧縮ステップの線形時間複雑度、およびDHSPG最適化の線形時間複雑度を示す。
- 複数のアーキテクチャ(VGG、ResNet、CARN、ConvNeXt、DenseNet、StackedUnets)とデータセット(CIFAR10/100、DIV2K、Fashion-MNIST、SVNH、ImageNet)で検証する。

実験結果
リサーチクエスチョン
- RQ1事前学習やファインチューニングなしに、一般的なDNNをワンパスで訓練と圧縮できるか。
- RQ2トレーニング可能なパラメータを多様なアーキテクチャに渡って自動的にZIGへ分割できるか。
- RQ3DHSPGは広範なハイパーパラメータ調整なしで高いグループスパーシティと競争力のある性能を信頼性高く達成できるか。
- RQ4自動的に構築された圧縮モデルは追加の訓練なしで全モデルと同一の出力を保持できるか。
主な発見
| Backend | Dataset | Method | FLOPs | # of Params | Top-1 Acc. |
|---|---|---|---|---|---|
| DemoNet | Fashion-MNIST | Baseline | 100% | 100% | 84.5% |
| DemoNet | Fashion-MNIST | OTOv2 | 24.0% | 23.3% | 84.3% |
| StackedUnets | SVNH | Baseline | 100% | 100% | 94.8% |
| StackedUnets | SVNH | OTOv2 | 26.4% | 17.0% | 94.7% |
| DenseNet121 | CIFAR100 | Baseline | 100% | 100% | 77.0% |
| DenseNet121 | CIFAR100 | OTOv2 | 20.8% | 26.7% | 75.5% |
| ConvNeXt-Tiny | ImageNet | Baseline | 100% | 100% | 82.0% |
| ConvNeXt-Tiny | ImageNet | OTOv2 | 52.8% | 54.2% | 81.1% |
- OTOv2は、さまざまなアーキテクチャとデータセットで競争力のある、あるいは最先端に近い精度を維持しつつ大幅なFLOPsとパラメータ削減を達成する。
- Fashion-MNIST上のDemoNetはTop-1精度が0.1–0.2%低下するのみで、FLOPs/パラメータ削減が73.6–83.0%に達する。
- SVNH上のStackedUnetsはTop-1精度を94.7%に維持し、FLOPsを26.4%、パラメータを17.0%に削減(基準値100%/100%と比較)。
- CIFAR100上のDenseNet121はFLOPsを20.8%、パラメータを26.7%に削減し、精度は75.5%(基準は77.0%)。
- ImageNet上のConvNeXt-TinyはFLOPsを52.8%、パラメータを54.2%に削減し、精度は81.1%(基準82.0%)。
- CIFAR10上のVGG16は、OTOv2による圧縮時に競争力のある精度を示し、Table 2の結果とともに substantialな圧縮を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。