QUICK REVIEW

[论文解读] Conditional Set Generation with Transformers

Adam R. Kosiorek, Hyunjik Kim|arXiv (Cornell University)|Jun 26, 2020

Advanced Image and Video Retrieval Techniques参考文献 22被引用 24

一句话总结

本文提出了一种用于条件集合生成的排列等变模型——Transformer集合预测网络（TSPN），该模型用可学习的基于Transformer的变换替代了深度集合预测网络（DSPN）中的基于梯度的优化。TSPN在生成质量和泛化能力方面均有提升，能够推广至未见过的集合大小，在点云生成和目标检测任务中显著提升了准确率与鲁棒性。

ABSTRACT

A set is an unordered collection of unique elements--and yet many machine learning models that generate sets impose an implicit or explicit ordering. Since model performance can depend on the choice of order, any particular ordering can lead to sub-optimal results. An alternative solution is to use a permutation-equivariant set generator, which does not specify an order-ing. An example of such a generator is the DeepSet Prediction Network (DSPN). We introduce the Transformer Set Prediction Network (TSPN), a flexible permutation-equivariant model for set prediction based on the transformer, that builds upon and outperforms DSPN in the quality of predicted set elements and in the accuracy of their predicted sizes. We test our model on MNIST-as-point-clouds (SET-MNIST) for point-cloud generation and on CLEVR for object detection.

研究动机与目标

解决现有集合生成模型因隐式或显式排序而带来的局限性，这些排序可能导致因责任问题而导致次优性能。
开发一种更具表达力和灵活性的集合预测模型，其本身具有排列等变性，并能泛化至远超训练时所见的集合大小。
克服DSPN中固定初始集合与基于梯度下降的优化方法的局限性，这些局限性限制了模型的表达能力与可扩展性。
提出一种系统性方法来学习集合基数，避免局部极小值问题，从而实现动态且精确的大小预测。
在条件集合生成任务（如集合-MNIST自编码与CLEVR目标检测）中展示优越性能。

提出的方法

TSPN用可学习的Transformer编码器-解码器架构替代了DSPN中的基于梯度的更新机制，该架构对初始集合元素执行联合的、排列等变的变换。
模型学习初始集合元素的分布，使其能够在推理阶段采样出所需基数的初始集合，从而实现动态大小泛化。
集合基数通过可学习的头部端到端预测，避免了DSPN中基数学习方法存在的局部极小值问题。
模型使用可学习的初始集合分布，并通过多头自注意力机制与前馈网络，以排列等变的方式更新集合元素。
训练采用Chamfer损失，输入特征使用ResNet-34编码器，模型通过标准反向传播与Adam优化。
架构设计具备可扩展性与泛化能力，各层之间无参数共享，以保留表示能力。

实验结果

研究问题

RQ1基于Transformer的架构是否能在保持排列等变性的同时，优于基于梯度优化的集合预测任务？
RQ2端到端学习集合基数是否能提升对训练中未见集合大小的泛化能力？
RQ3基于分布的初始集合采样策略是否相比固定初始集合能提升模型灵活性与性能？
RQ4在点云与目标检测基准上，TSPN与DSPN及c-DSPN相比，在生成质量与鲁棒性方面表现如何？
RQ5TSPN在多大程度上能外推至远大于训练分布的集合大小？

主要发现

在CLEVR目标检测任务中，TSPN的集合基数RMSE为0.58，显著优于c-DSPN（1.74）与DSPN（2.53），表明其基数预测能力更优。
在CLEVR上，TSPN的AP50达到81.2，显著高于c-DSPN（71.6）与DSPN（67.7），证明其目标检测准确率更优。
在set-MNIST任务中，TSPN能有效泛化至最大1000个点的集合大小，而c-DSPN无法泛化至其训练集合大小之外，显示出更强的外推能力。
当生成的集合基数与训练中所见差异极大时，TSPN的性能保持稳定且准确，而c-DSPN在此类条件下性能显著下降。
在set-MNIST上，TSPN相比DSPN与c-DSPN显著降低了Chamfer损失，表明其点云生成质量更高。
所提出的基数学习方法避免了局部极小值，表现为在各类测试集大小下均保持一致且准确的大小预测。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。