Skip to main content
QUICK REVIEW

[論文レビュー] Neural Architecture Search with Reinforce and Masked Attention Autoregressive Density Estimators.

Chepuri Shri Krishna, Ashish Gupta|arXiv (Cornell University)|Jun 1, 2020
Machine Learning and Data Classification被引用数 2
ひとこと要約

本論文は、NASBench-101におけるより効果的な探索を可能にするために、ポリシーネットワークとしてマスク付きアテンション自己回帰モデルを用いた強化学習ベースのニューラルアーキテクチャ探索(NAS)手法を提案する。共有パラメータを持つ複数のポリシーをアンサンブルして訓練することで、先行するポリシー勾配法およびランダムサーチを上回る最先端の性能を達成する。

ABSTRACT

Neural Architecture Search has become a focus of the Machine Learning community. Techniques span Bayesian optimization with Gaussian priors, evolutionary learning, reinforcement learning based on policy gradient, Q-learning, and Monte-Carlo tree search. In this paper, we present a reinforcement learning algorithm based on policy gradient that uses an attention-based autoregressive model to design the policy network. We demonstrate how performance can be further improved by training an ensemble of policy networks with shared parameters, each network conditioned on a different autoregressive factorization order. On the NASBench-101 search space, it outperforms most algorithms in the literature, including random search. In particular, it outperforms RL methods based on policy gradients that use alternate architectures to specify the policy network, underscoring the importance of using masked attention in this setting. We have adhered to guidelines listed in Lindauer& Hutter (2019) while designing experiments and reporting results.

研究の動機と目的

  • 強化学習を用いたニューラルアーキテクチャ探索(NAS)の性能を、より表現力のあるポリシーネットワークを用いて向上させること。
  • ポリシーモデリングに非自己回帰的または構造が不十分なアーキテクチャを用いる従来のポリシー勾配法の限界を解消すること。
  • 自己回帰的要因分解順序がNASにおけるポリシー性能に与える影響を調査すること。
  • マスク付きアテンション機構が、NASにおけるポリシーの一般化能力および探索効率を向上させることを示すこと。
  • Lindauer & Hutter (2019)の指針に従って標準化されたベンチマークで、本手法の妥当性を検証すること。

提案手法

  • ポリシー勾配に基づく強化学習フレームワークを用い、ポリシーネットワークが段階的にアーキテクチャの操作を選択する。
  • 自己回帰的モデルにマスク付き自己アテンションを用いてポリシーをモデル化し、以前の選択肢に対する注目を確保しながら順次的なアーキテクチャ生成を可能にする。
  • アーキテクチャ探索空間の異なる自己回帰的要因分解順序に条件付けられたポリシーネットワークのアンサンブルを構築する。
  • アンサンブルの各メンバー間でパラメータを共有することで、サンプル効率を向上させ、過学習を軽減する。
  • NASBench-101における訓練済みモデルの報酬信号を用いて、REINFORCEアルゴリズムによりポリシーを最適化する。
  • 因果関係を保証し、有効な自己回帰的生成を実現するために、マスク付きアテンションを適用する。

実験結果

リサーチクエスチョン

  • RQ1アテンションを備えた自己回帰的モデルは、標準的なフィードフォワード型またはRNNベースのポリシーと比較して、強化学習ベースのNASにおけるポリシー表現を向上させることができるか?
  • RQ2複数の自己回帰的要因分解順序に条件付けたポリシーは、探索性能およびロバストネスを向上させるか?
  • RQ3本手法は、NASBench-101ベンチマークにおいてランダムサーチおよび他のRLベースのNAS手法と比較して、どのように評価されるか?
  • RQ4アンサンブルポリシー間でのパラメータ共有は、NASにおけるサンプル効率および一般化能力をどの程度向上させるか?
  • RQ5マスク付きアテンションは、アーキテクチャ探索の文脈における効果的な自己回帰的モデリングにとって不可欠であるか?

主な発見

  • 提案手法は、NASBench-101探索空間においてランダムサーチを上回り、構造的なポリシーネットワークを用いる利点が明確に示された。
  • 本手法は、NASBench-101においてRLベースのNASアルゴリズムの中で最先端の性能を達成し、異なるポリシーアーキテクチャを用いた他のポリシー勾配法を上回った。
  • 異なる自己回帰的要因分解順序に条件付けたポリシーのアンサンブルを用いることで性能が向上した。これは、要因分解順序が探索品質に顕著な影響を与えることを示している。
  • ポリシーネットワークにマスク付きアテンションを統合することで、アテンションなしのベースラインと比較して、順次的なアーキテクチャ選択のモデリングが向上した。
  • アンサンブルメンバー間でのパラメータ共有により、性能を損なわず、トレーニングの安定性およびサンプル効率が向上した。
  • 本手法は、Lindauer & Hutter (2019)の指針に従ったベストプラクティスに準拠しており、標準化されたガイドラインに基づいて結果が報告された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。