QUICK REVIEW

[论文解读] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Mahmoud Assran, Quentin Duval|arXiv (Cornell University)|Jan 19, 2023

Domain Adaptation and Few-Shot Learning被引用 16

一句话总结

I-JEPA 通过从上下文块预测目标块表示，在不使用手工设计的增强的情况下学习语义图像表征，采用带掩码的联合嵌入预测框架；在 ViT 主干上扩展高效，能在语义任务上与视图不变方法相媲美，同时在低级任务上表现出色。

ABSTRACT

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.

研究动机与目标

在没有手工设计的视图增强的情况下，激励学习语义图像表征。
提出一种用于图像的非生成型、联合嵌入预测架构（I-JEPA）。
研究产生语义目标和信息丰富上下文的掩码策略。
Demonstrate scalability and efficiency of I-JEPA on large Vision Transformers.
Evaluate I-JEPA across linear probing, semi-supervised, and transfer tasks.

提出的方法

使用 ViT 上下文编码器处理单个上下文块。
用一个以位置标记为条件的预测器预测目标块的表示。
通过目标编码器表示目标，其权重以上下文编码器的指数移动平均更新。
通过最小化在嵌入空间内预测表示与实际目标表示之间的 L2 距离来训练。
从图像中采样目标块，采用多块掩码策略以确保具有语义目标和信息丰富的上下文。
在不同设置下将 I-JEPA 与 MAE、data2vec 以及视图不变方法进行比较（线性探针、1% 标签、迁移）。

实验结果

研究问题

RQ1是否可以通过跨图像块预测嵌入来在不使用手工增强的情况下学习语义图像表征？
RQ2哪种掩码策略（目标大小、上下文信息量）能产生最具语义的表示？
RQ3与重建和基于增强的方法相比，I-JEPA 在计算量和模型规模方面的扩展性如何？
RQ4学到的表示是否能有效迁移到分类和密集/低级别预测任务？
RQ5在表示空间中预测是否比在像素空间重建对语义质量更有效？

主要发现

I-JEPA 在 ImageNet 上在没有视图增强的情况下实现强线性探针性能，在相似计算下甚至可超越 MAE 和 data2vec。
更大的模型和更高的输入分辨率将 I-JEPA 推向与语义任务上的视图不变方法相匹配或超越的水平。
与某些基于视图的方法相比，I-JEPA 在 Clevr 的低级任务（对象计数和深度预测）上有所提升。
I-JEPA 比竞争方法的计算成本更低，在达到强性能前需要更少的预训练迭代，尤其在 ViT-H/14 和分辨率提升时。
在表示空间进行预测（而非像素空间）对保持语义质量至关重要；像素空间目标会降低性能。
一种结合信息丰富的上下文与较大语义目标的多块掩码策略产生的表示优于光栅化或单块掩码。
I-JEPA 从更大且多样的预训练数据（ImageNet-22k）中受益，并且随着模型规模的增大在语义任务上的扩展性更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。