QUICK REVIEW

[论文解读] Deep Models of Interactions Across Sets

Jason Hartford, Devon R. Graham|arXiv (Cornell University)|Mar 7, 2018

Topic Modeling参考文献 25被引用 52

一句话总结

本文介绍了用于可交换矩阵/张量的置换等变神经层，以建模跨多个集合的交互，能够实现可扩展的归纳式矩阵/张量填充并具备强跨领域外推能力。

ABSTRACT

We use deep learning to model interactions across two or more sets of objects, such as user-movie ratings, protein-drug bindings, or ternary user-item-tag interactions. The canonical representation of such interactions is a matrix (or a higher-dimensional tensor) with an exchangeability property: the encoding's meaning is not changed by permuting rows or columns. We argue that models should hence be Permutation Equivariant (PE): constrained to make the same predictions across such permutations. We present a parameter-sharing scheme and prove that it could not be made any more expressive without violating PE. This scheme yields three benefits. First, we demonstrate state-of-the-art performance on multiple matrix completion benchmarks. Second, our models require a number of parameters independent of the numbers of objects, and thus scale well to large datasets. Third, models can be queried about new objects that were not available at training time, but for which interactions have since been observed. In experiments, our models achieved surprisingly good generalization performance on this matrix extrapolation task, both within domains (e.g., new users and new movies drawn from the same distribution used for training) and even across domains (e.g., predicting music ratings after training on movies).

研究动机与目标

在交换性约束下，激励在两个或更多集合之间学习交互（例如用户-项目、蛋白质-药物）。
引入一个置换等变（PE）参数共享方案，在不违反PE的前提下达到最大的表达能力。
开发可交换矩阵/张量层等架构，能够随数据规模扩展并支持对未见实体的归纳泛化。
在矩阵完成基准测试和跨域外推任务上展示出强劲的实证性能。
就大规模数据集中的稀疏输入和子采样提供实用考虑因素。

提出的方法

通过一个绑定参数的层定义并强制矩阵输入的置换等变性，使其归约为一个简单的、保持PE的形式（Equation 3）。
将PE层推广至多通道输入和跨通道交互（Equation 4）。
将PE框架扩展到更高维张量，并给出相应的参数绑定方案（Theorem 5.1）。
通过将池化项仅适用于观测到的条目来处理稀疏性。
提出两种训练/推理架构：一种自监督的可交换模型和一个因子化的可交换自编码器（FEA）。
讨论在大矩阵上的实际正则化（通道丢弃）和子采样策略（均匀采样与条件采样）。

实验结果

研究问题

RQ1如何在不导致参数数量爆炸的情况下，在神经模型中强制实现对可交换矩阵/张量数据的置换等变？
RQ2基于PE的模型是否在传导设置的矩阵完成基准上达到有竞争力或最先进的性能，同时保持归纳能力？
RQ3PE模型是否能推广到未见的用户/项目（归纳矩阵外推），甚至跨领域数据集（如电影评分到音乐评分）？
RQ4稀疏性和子采样对可交换PE模型的性能有何影响，我们该如何缓解？
RQ5如何将PE框架从矩阵扩展到高阶张量及其他可交换结构（如通过联合可交换矩阵的图）？

主要发现

可交换矩阵层通过最小且高度结构化的参数共享实现置换等变性，从而使PE函数成为可能。
自监督的可交换模型在 MovieLens-100K 的传导设置中实现了最先进的性能。
因子化可交换自编码器（FEA）支持归纳完成并能推广到未见的用户和项目，在归纳测试中领先于基线。
在内存受限需要子采样的较大数据集上，该方法也取得了具有竞争力的结果，条件采样有助于回收部分性能。
该方法在跨域外推方面表现出色，在音乐评分上测试时对训练自电影评分的模型仍具竞争力（在适当的分箱/重新缩放后）。
该框架自然扩展到高阶张量，并作为参数共享的特例，与图卷积网络架构相关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。