QUICK REVIEW

[论文解读] Conditional Neural Processes

Marta Garnelo, Dan Rosenbaum|arXiv (Cornell University)|Jul 4, 2018

Gaussian Processes and Bayesian Inference参考文献 30被引用 59

一句话总结

Conditional Neural Processes (CNPs) 是基于神经网络的模型，学习在给定观测数据的条件下的函数分布，具备少样本自适应、可扩展推断，以及在回归、分类和图像补全等任务上的通用性。它们将神经网络的灵活性与类似高斯过程的条件化相结合，而无需显式的贝叶斯先验。

ABSTRACT

Deep neural networks excel at function approximation, yet they are typically trained from scratch for each new function. On the other hand, Bayesian methods, such as Gaussian Processes (GPs), exploit prior knowledge to quickly infer the shape of a new function at test time. Yet GPs are computationally expensive, and it can be hard to design appropriate priors. In this paper we propose a family of neural models, Conditional Neural Processes (CNPs), that combine the benefits of both. CNPs are inspired by the flexibility of stochastic processes such as GPs, but are structured as neural networks and trained via gradient descent. CNPs make accurate predictions after observing only a handful of training data points, yet scale to complex functions and large datasets. We demonstrate the performance and versatility of the approach on a range of canonical machine learning tasks, including regression, classification and image completion.

研究动机与目标

通过将神经网络与受 GP 启发的条件化相结合，推动数据高效学习。
提出一种可扩展、置换不变的架构，对观测的固定大小嵌入进行条件化。
在回归、图像补全和单样本分类上演示 CNPs，以展示其多样性和高效性。
将 CNPs 与高斯过程和元学习方法进行比较，以突出其优点与权衡。

提出的方法

定义一个条件随机过程 Q_theta，用以建模在给定观测 O 的情况下对 f(T) 的分布，O 和 T 的置换不变性。
将每个观测 (x_i, y_i) 编码为 r_i = h_theta(x_i, y_i)，并通过一个交换性运算（如均值）聚合为一个固定维度的 r。
对 T 中的每个目标 x 计算 phi_i = g_theta(x_i, r)，从而得到条件输出分布的参数（如回归的高斯均值/方差，分类的 logits）。
通过最大化给定观测的随机子集 O_N 的目标条件似然来训练，最小化相对于 theta 的条件对数似然的负值。
在从 n 个观测预测 m 个目标时，确保测试时复杂度为 O(n+m)。

实验结果

研究问题

RQ1神经模型是否能够在没有显式贝叶斯先验的情况下，学习一个灵活、数据驱动的函数先验？
RQ2是否可以通过一个置换不变的、平摊化的架构，在观测有限的情况下高效地预测新输入的函数值？
RQ3相较于基于 GP 的方法和元学习方法，CNPs 在回归、分类及与图像相关的任务中的表现如何？
RQ4添加潜变量是否能在保持可扩展条件化的同时实现连贯的多点采样？
RQ5观测数量和排列对预测准确性与不确定性估计有何影响？

主要发现

CNPs 在回归任务中以少量观测实现准确预测，并且能够近似 GP 风格的不确定性。
在图像补全（MNIST 和 CelebA）中，CNPs 产生合理的均值和不确定性图，并且对变化的观测模式保持灵活性。
当上下文较小时，CNPs 的表现优于 kNNs 和 GPs，并对上下文点的顺序保持鲁棒性。
潜变量扩展可产生一致样本，并随着观测增多而降低不确定性。
在 one-shot Omniglot 分类中，CNPs 以与基线相比显著更低的测试时复杂度 (O(n+m)) 实现有竞争力的准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。