Skip to main content
QUICK REVIEW

[论文解读] AdaNet: Adaptive Structural Learning of Artificial Neural Networks

Corinna Cortes, Xavi Gonzalvo|arXiv (Cornell University)|Jul 5, 2016
Machine Learning and ELM参考文献 46被引用 107
一句话总结

AdaNet 在数据相关的泛化保证下,同时学习神经网络的结构与权重,在 CIFAR-10 二分类任务中展现出与标准方法相竞争的表现。

ABSTRACT

We present new algorithms for adaptively learning artificial neural networks. Our algorithms (AdaNet) adaptively learn both the structure of the network and its weights. They are based on a solid theoretical analysis, including data-dependent generalization guarantees that we prove and discuss in detail. We report the results of large-scale experiments with one of our algorithms on several binary classification tasks extracted from the CIFAR-10 dataset. The results demonstrate that our algorithm can automatically learn network structures with very competitive performance accuracies when compared with those achieved for neural networks found by standard approaches.

研究动机与目标

  • 推动自适应学习网络架构,以避免手动设计和超参数调优。
  • 为学习网络结构和权重提供理论上的泛化保证。
  • 开发并分析在控制复杂度的同时生长网络结构的 AdaNet 算法。
  • 在 CIFAR-10 衍生任务上展示自适应网络的经验竞争力。

提出的方法

  • 定义一个广泛、通用的网络假设类,允许跨层连接和输出。
  • 利用分层的 Rademacher 复杂度和边界保证推导数据相关的泛化界限。
  • 提出 AdaNet 目标作为一个凸替代项,基于 Rademacher 复杂度的显式数据相关正则化项。
  • 使用类提升的块坐标下降迭代添加子网络,可以是同深度或更深的结构,最小化经验损失的凸替代以及复杂度惩罚。
  • 描述每次迭代的两个候选子网络,并选择对目标最有提升的一个,可能使用不同的弱学习策略。

实验结果

研究问题

  • RQ1在训练过程中能否自适应学习网络架构并给出泛化保证?
  • RQ2如何利用数据相关的复杂度度量来引导网络结构的添加,以在拟合度和容量之间取得平衡?
  • RQ3自适应学习的架构在图像分类任务上是否能与固定架构和简单基线相比具有竞争力?
  • RQ4理论对训练中构建和选择子网络的实际意义是什么?

主要发现

标签对AdaNetLRNNNN-GP
deer-truck0.9372 ± 0.00820.8997 ± 0.00660.9213 ± 0.00650.9220 ± 0.0069
deer-horse0.8430 ± 0.00760.7685 ± 0.01190.8055 ± 0.01780.8060 ± 0.0181
automobile-truck0.8461 ± 0.00690.7976 ± 0.00760.8063 ± 0.00640.8056 ± 0.0138
cat-dog0.6924 ± 0.01290.6664 ± 0.00990.6595 ± 0.01410.6607 ± 0.0097
dog-horse0.8350 ± 0.00890.7968 ± 0.01280.8066 ± 0.00870.8087 ± 0.0109
  • AdaNet 为学习网络架构和权重提供数据相关的泛化界限。
  • 该界限取决于按网络连接强度加权的分层复杂度的加权平均值,在有利时鼓励更低层的重要性。
  • CIFAR-10 二分类任务的实证结果表明 AdaNet 的准确率与逻辑回归和标准神经网络相比具有竞争力。
  • AdaNet 架构在多对任务中往往是稀疏且较浅的,但在需要时(如猫-狗任务)可以变得更深。
  • 不同的 AdaNet 变体和弱学习策略在各任务上对准确率表现出鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。