[论文解读] One-Way Prototypical Networks
本文提出一种单向原型网络用于少样本单类分类,通过批量归一化实现零均值的空类(null class)以消除对负样本的需求。进一步地,该方法使用完整的高斯分布(均值与标准差)建模类别原型,而非仅使用质心,使在 Omniglot 上达到 98% 的准确率,在未匹配的 MNIST 上达到 80% 的准确率,且训练时间相比双路模型减少一半。
Few-shot models have become a popular topic of research in the past years. They offer the possibility to determine class belongings for unseen examples using just a handful of examples for each class. Such models are trained on a wide range of classes and their respective examples, learning a decision metric in the process. Types of few-shot models include matching networks and prototypical networks. We show a new way of training prototypical few-shot models for just a single class. These models have the ability to predict the likelihood of an unseen query belonging to a group of examples without any given counterexamples. The difficulty here lies in the fact that no relative distance to other classes can be calculated via softmax. We solve this problem by introducing a "null class" centered around zero, and enforcing centering with batch normalization. Trained on the commonly used Omniglot data set, we obtain a classification accuracy of .98 on the matched test set, and of .8 on unmatched MNIST data. On the more complex MiniImageNet data set, test accuracy is .8. In addition, we propose a novel Gaussian layer for distance calculation in a prototypical network, which takes the support examples' distribution rather than just their centroid into account. This extension shows promising results when a higher number of support examples is available.
研究动机与目标
- 解决在少样本学习中难以定义或收集负样本的单类分类挑战。
- 通过引入以零为中心分布的“空”类,消除对负样本或反例类进行训练的需求。
- 通过在潜在空间中不仅将类别原型建模为质心,还建模为完整的高斯分布,提升少样本泛化能力。
- 通过仅在每个任务中处理一个类别(而非两个),利用单向设计,将训练时间减半。
提出的方法
- 在潜在空间中引入一个固定为零均值的“空”类,利用批量归一化的零中心化特性实现。
- 仅使用正类的支持样本进行训练,不使用负样本,采用交叉熵损失,以空类作为负样本参考。
- 将类别原型建模为多变量高斯分布(均值与标准差),而非仅使用质心,以捕捉不确定性和分布扩散。
- 在原型网络中引入高斯层,基于支持样本的均值与方差计算距离。
- 在嵌入层后应用批量归一化,以强制实现零中心化,从而稳定空类的表征。
- 在基于任务的少样本学习设置中进行训练,包含支持集与查询样本,优化未见查询的分类准确率。
实验结果
研究问题
- RQ1能否在无需负样本或反例类的情况下,有效训练原型网络用于单类分类?
- RQ2与仅使用质心的建模方式相比,将类别原型建模为完整高斯分布(均值与标准差)是否能提升少样本泛化能力?
- RQ3与双路模型相比,单向训练设置(单个正类与空类)在准确率与训练效率方面表现如何?
- RQ4当支持样本足够多时,使用高斯层是否能带来可测量的性能提升?
主要发现
- 单向原型网络在匹配的 Omniglot 测试集上达到 98% 的准确率,在未匹配的 MNIST 数据上达到 80% 的准确率,展现出对未见领域的强大泛化能力。
- 在更复杂的 MiniImageNet 数据集上,模型达到 80% 的测试准确率,表现出对分布偏移的鲁棒性。
- 当支持样本数量达到 15 个或以上时,高斯层扩展优于标准质心基原型网络,表明对不确定性的建模能力得到提升。
- 与双路模型相比,训练时间减少了近 50%,因为每个任务仅需处理一个类的支持样本。
- 尽管批量归一化强制单位方差,但在训练中允许模型自适应调整空类分布的标准差,仍能提升性能。
- 在 Omniglot 上,当支持样本数量较大(≥15 个)时,该模型性能超越标准原型网络,表明在支持数据充足时具备良好的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。