Skip to main content
QUICK REVIEW

[论文解读] LambdaNetworks: Modeling Long-Range Interactions Without Attention

Irwan Bello|arXiv (Cornell University)|Feb 17, 2021
Advanced Neural Network Applications参考文献 60被引用 48
一句话总结

LambdaNetworks 引入 lambda 层,将上下文转换为线性函数,以建模不使用注意力的长程交互,在 ImageNet、COCO 上表现出色,并在关注基方法上实现效率提升。

ABSTRACT

We present lambda layers -- an alternative framework to self-attention -- for capturing long-range interactions between an input and structured contextual information (e.g. a pixel surrounded by other pixels). Lambda layers capture such interactions by transforming available contexts into linear functions, termed lambdas, and applying these linear functions to each input separately. Similar to linear attention, lambda layers bypass expensive attention maps, but in contrast, they model both content and position-based interactions which enables their application to large structured inputs such as images. The resulting neural network architectures, LambdaNetworks, significantly outperform their convolutional and attentional counterparts on ImageNet classification, COCO object detection and COCO instance segmentation, while being more computationally efficient. Additionally, we design LambdaResNets, a family of hybrid architectures across different scales, that considerably improves the speed-accuracy tradeoff of image classification models. LambdaResNets reach excellent accuracies on ImageNet while being 3.2 - 4.4x faster than the popular EfficientNets on modern machine learning accelerators. When training with an additional 130M pseudo-labeled images, LambdaResNets achieve up to a 9.5x speed-up over the corresponding EfficientNet checkpoints.

研究动机与目标

  • 在结构化输入如图像中激励建模长程依赖,而无需代价高昂的注意力机制。
  • 开发将上下文概括为应用于每个查询的线性函数的 lambda 层。
  • 证明 lambda 层在视觉任务中可比卷积和注意力并且具有更好效率。

提出的方法

  • 定义查询和上下文,并形式化基于内容的和基于位置的交互。
  • 引入 lambda 层,计算上下文 lambda 作为内容分量和位置分量的和(lambda n = K^T V + E_n^T V)。
  • 使用多查询形式以降低时间/空间复杂度(将若干 q 派生 lambda 的输出连接起来)。
  • 可选地通过相对位置嵌入实现平移等变性,并给出用于局部上下文的 lambda 卷积。
  • 通过 ImageNet、COCO 以及半监督实验,与卷积和各种注意力变体进行对比。

实验结果

研究问题

  • RQ1lambda 层是否能够在不将注意力映射显式物化的情况下捕捉图像中的全局长程交互?
  • RQ2相比自注意力,lambda 层是否在速度和内存方面具有优势,同时在视觉任务上提升准确度?
  • RQ3混合卷积- lambda 架构在不同尺度上在速度-准确度权衡方面表现如何?
  • RQ4多查询形式和平移等变嵌入对性能与效率有何影响?
  • RQ5基于 lambda 的骨干网络是否对目标检测和实例分割任务有益?

主要发现

  • Lambda 层在 ImageNet 上优于卷积和注意力基线,参数更少(例如,使用 ResNet-50 相比 Conv 基线,top-1 提升 1.5%)。
  • Lambda 网络在内存占用和吞吐量方面低于自注意力变体,同时达到相当或更高的准确度。
  • LambdaResNets 提供显著更快的速度-准确率权衡,在相似准确度下比 EfficientNets 快 3.2–4.4 倍,在半监督训练中使用伪标记数据时快多达 9.5 倍。
  • LambdaResNets 在 ImageNet 上达到 84.9% 的 top-1 准确率(LambdaResNet-420,输入 320),并提升 COCO 的框/掩码指标相对于基线。
  • 在使用 LambdaResNet 主干的 Mask-RCNN 中,小目标有显著提升,表明定位性能改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。