[論文レビュー] NAT: Neural Architecture Transformer for Accurate and Compact Architectures
NAT はアーキテクチャ最適化を MDP とみなし、冗長な操作を効率的なものに置換し、CIFAR-10 と ImageNet の hand-crafted および NAS ベースのモデルでより正確でコンパクトなアーキテクチャを実現します。
Designing effective architectures is one of the key factors behind the success of deep neural networks. Existing deep architectures are either manually designed or automatically searched by some Neural Architecture Search (NAS) methods. However, even a well-searched architecture may still contain many non-significant or redundant modules or operations (e.g., convolution or pooling), which may not only incur substantial memory consumption and computation cost but also deteriorate the performance. Thus, it is necessary to optimize the operations inside an architecture to improve the performance without introducing extra computation cost. Unfortunately, such a constrained optimization problem is NP-hard. To make the problem feasible, we cast the optimization problem into a Markov decision process (MDP) and seek to learn a Neural Architecture Transformer (NAT) to replace the redundant operations with the more computationally efficient ones (e.g., skip connection or directly removing the connection). Based on MDP, we learn NAT by exploiting reinforcement learning to obtain the optimization policies w.r.t. different architectures. To verify the effectiveness of the proposed strategies, we apply NAT on both hand-crafted architectures and NAS based architectures. Extensive experiments on two benchmark datasets, i.e., CIFAR-10 and ImageNet, demonstrate that the transformed architecture by NAT significantly outperforms both its original form and those architectures optimized by existing methods.
研究の動機と目的
- アーキテクチャ内の非重要または冗長なモジュールを剪定する必要性を動機付け、性能を向上させ計算量を削減する。
- 損なわずに計算コストを増やさずに、任意の与えられたアーキテクチャを変換する一般的なアーキテクチャ最適化器を提案する。
- アーキテクチャ最適化をMDPとして捉え、スキップ接続やヌルエッジに置換する操作を選択的に行うポリシーを学習する。
- グラフ畳み込みネットワークを活用して隣接情報を捉え、操作変換を導く。
- CIFAR-10 と ImageNet の両方で、手作りと NAS ベースのアーキテクチャの有効性を実証する。
提案手法
- edges を N (null), S (skip), O (other operations) に分類し、コスト順序 c(O) > c(S) > c(N) を定義して DAGs としてモデル化する。
- 最適化をワンステップのマルコフ決定過程として捉え、β を α に変換する方針を学習し、コストを保持または削減する。
- ポリシーをパラメータ化し、局所的なグラフ構造を捉えるために Graph Convolutional Network (GCN) を用いてエッジレベルの操作決定を行う。
- ポリシー勾配とエントロピー正則化で訓練し、探索と多様なアーキテクチャ変換を促す。
- パラメータ共有を行い、多くのアーキテクチャに対して単一の NAT を訓練するために大規模な共有計算グラフを構築する。
- 学習したポリシーから複数の α をサンプリングして最良の検証精度を選択することで最適化されたアーキテクチャを推定する。
実験結果
リサーチクエスチョン
- RQ1NAT は追加の計算コストをかけずに任意のアーキテクチャをより正確またはよりコンパクトな形に信頼して変換できるか。
- RQ2手作りネットワーク(例:VGG、ResNet、MobileNet)と NAS由来モデル(例:DARTS、ENAS、NAONet)の両方に対して一貫した改善を提供するか。
- RQ3GCNベースのポリシーはアーキテクチャ変換において LSTM やランダム探索より優れているか。
主な発見
- NAT は手作りモデルを計算コストをほぼ変えずに一貫して改善し、ImageNet の VGG 関連の場合で Top-1 精度を最大で 2.75% 向上させる。
- NAS ベースのモデルでは NAT がパラメータを約 20% 削減し、特定のベースラインで ImageNet の Top-1 精度を約 0.6% 向上させる。
- CIFAR-10 と ImageNet に跨る NAT ベースのアーキテクチャは元のものと NAO によって最適化されたベースラインを大半のケースで上回る。
- サンプリングベースのポリシー(GCN)はランダム探索、LSTM、Maximum-GCN より良い検証済みアーキテクチャを生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。