Skip to main content
QUICK REVIEW

[论文解读] Learning Inductive Biases with Simple Neural Networks

Reuben Feinman, Brenden M. Lake|arXiv (Cornell University)|Feb 8, 2018
Child and Animal Learning Development参考文献 3被引用 28
一句话总结

该论文表明,简单的神经网络——包括前馈网络和卷积网络——在每个类别的抽象或合成图像上仅训练3至6个样本后,即可发展出形状偏差。这种归纳偏置的出现与词汇学习的加速密切相关,与儿童的发展模式相吻合,表明神经网络能够以极少量数据实现高效、类人的概念习得。

ABSTRACT

People use rich prior knowledge about the world in order to efficiently learn new concepts. These priors - also known as "inductive biases" - pertain to the space of internal models considered by a learner, and they help the learner make inferences that go beyond the observed data. A recent study found that deep neural networks optimized for object recognition develop the shape bias (Ritter et al., 2017), an inductive bias possessed by children that plays an important role in early word learning. However, these networks use unrealistically large quantities of training data, and the conditions required for these biases to develop are not well understood. Moreover, it is unclear how the learning dynamics of these networks relate to developmental processes in childhood. We investigate the development and influence of the shape bias in neural networks using controlled datasets of abstract patterns and synthetic images, allowing us to systematically vary the quantity and form of the experience provided to the learning algorithms. We find that simple neural networks develop a shape bias after seeing as few as 3 examples of 4 object categories. The development of these biases predicts the onset of vocabulary acceleration in our networks, consistent with the developmental process in children.

研究动机与目标

  • 探究简单的神经网络是否能够发展出儿童身上观察到的形状偏差这类归纳偏置。
  • 确定神经网络中形状偏差习得的最低数据需求。
  • 考察神经网络中形状偏差的发展与词汇学习加速之间的关系。
  • 比较神经网络的学习动态与人类儿童在早期词汇学习过程中观察到的动态。
  • 探索形状偏差是否可作为先验,以提升大规模图像识别模型的数据效率。

提出的方法

  • 使用抽象位模式和具有4至8个物体类别的高维合成图像,创建了受控的合成数据集。
  • 使用交叉熵损失并采用类别加权采样进行训练,以反映自然的词汇频率分布(60%物体名称,20%颜色,20%纹理)。
  • 通过二阶泛化测试衡量形状偏差,评估网络是否基于形状将新名称应用于新样本。
  • 将词汇量定义为达到≥80%训练准确率的形状类别数量。
  • 在30个周期内对10次会话的学习动态进行分析,并计算形状选择与词汇增长之间的相关性指标。
  • 通过20个不同随机种子的网络重复实验,以确保结果的稳健性。

实验结果

研究问题

  • RQ1简单的神经网络是否能在每个类别仅3个样本的情况下发展出形状偏差?
  • RQ2输入刺激的复杂性(抽象图案与合成图像)如何影响形状偏差的出现?
  • RQ3神经网络中形状偏差的发展与词汇学习加速之间是否存在时间上的相关性?
  • RQ4神经网络的学习动态在多大程度上与人类儿童在早期词汇学习阶段的动态相吻合?
  • RQ5能否通过以形状偏差进行初始化来提升大规模模型在图像识别中的数据效率?

主要发现

  • 简单的前馈网络在仅用每个类别的4个物体类别、抽象位模式数据集中的3个样本进行训练后,即发展出形状偏差。
  • 卷积神经网络在高维合成图像数据集、8个物体类别中,仅用每个类别6个样本后即发展出形状偏差。
  • 在20个网络、10次训练会话中,累积形状选择与词汇增长之间存在显著相关性(r = 0.76,p < 0.001)。
  • 形状偏差的发展可预测网络中词汇加速的出现,与儿童的发展模式一致。
  • 网络的学习动态与人类儿童在早期词汇学习阶段的观察结果高度相似,尤其在词汇学习初期阶段。
  • 这些结果表明,即使训练数据极少,神经网络也能实现与层次贝叶斯模型和人类儿童相当的数据效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。