QUICK REVIEW

[论文解读] Superposition of many models into one

Brian Cheung, A. L. Terekhov|arXiv (Cornell University)|Feb 14, 2019

Domain Adaptation and Few-Shot Learning参考文献 27被引用 46

一句话总结

本文提出参数叠加以通过使用任务特定上下文向量在单一神经网络中存储多个任务特定模型，在训练过程中以最小干扰检索每个模型。

ABSTRACT

We present a method for storing multiple models within a single set of parameters. Models can coexist in superposition and still be retrieved individually. In experiments with neural networks, we show that a surprisingly large number of models can be effectively stored within a single parameter instance. Furthermore, each of these models can undergo thousands of training steps without significantly interfering with other models within the superposition. This approach may be viewed as the online complement of compression: rather than reducing the size of a network after training, we make use of the unrealized capacity of a network during training.

研究动机与目标

在训练过程中利用过参数化来在单一参数集合中学习多个任务的动机。
将参数叠加引入为一种对内存友好的在一个网络中存储若干模型的方法。
展示在在线学习场景下对干扰和灾难性遗忘的鲁棒性。
展示对全连接和卷积结构的适用性，包括像 ResNet 这样的最先进网络。

提出的方法

通过 W = sum_i Wi Ci^{-1} (Equation 1) 将 K 个任务模型 W1,...,WK 存储在单一权重矩阵 W 中。
将任务 k 的参数检索为 Ŵk = WCk = sum_i Wi(Ci^{-1}Ck) (Equation 2)。
将任务输出计算为 yk = W(Ck x) 或等价地 yk = W(Ck x) (Equation 3)。
将上下文应用为对角、复数或基于旋转的变换以最小化干扰；讨论每种上下文的参数数量（Table 1）。
通过将上下文乘法应用于每一层的线性变换（Equation 7）以及卷积核（Equation 8），将 PSP 扩展到神经网络。
分析干扰和检索噪声，其中的命题在期望意义下检索无偏且方差界近似与 1/M 成正比（Appendix A）。

实验结果

研究问题

RQ1在训练过程中，多个任务特定模型是否可以存储在同一参数集合中而不产生显著干扰？
RQ2上下文的选择（二进制、复数、旋转、对角）如何影响内存效率和模型之间的干扰？
RQ3在输入分布变化（如对 MNIST 进行置换、对 MNIST/Fashion-MNIST 进行旋转）以及输出分布变化（iCIFAR）时，PSP 是否能减轻灾难性遗忘？
RQ4PSP 是否与现代架构（例如 ResNet）和卷积网络兼容？
RQ5上下文能否被自适应或自动化，以减少对明确任务身份的依赖？

主要发现

PSP 使在单一参数实例中存储多个模型成为可能，并且在每个模型上进行数千次训练步骤时干扰极小。
二进制、复数和基于旋转的上下文在内存成本与检索质量之间提供不同的权衡，旋转在成本较高时提供了最佳的干扰降低（Table 1）。
与标准基线和先前的持续学习方法（EWC、SI）相比，PSP 在对置换的 MNIST 上显著缓解灾难性遗忘。
PSP 在输入分布变化（置换/旋转的 MNIST 以及旋转的 Fashion-MNIST）以及输出分布变化（iCIFAR）下保持鲁棒。
PSP 可以扩展到像 ResNet-18 这样的现代网络，并在顺序学习不相交的 CIFAR-100 类集合后仍维持 CIFAR-10 的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。