Skip to main content
QUICK REVIEW

[论文解读] Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining

Zekun Qi, Runpei Dong|arXiv (Cornell University)|Feb 5, 2023
Human Pose and Action Recognition被引用 30
一句话总结

ReCon 通过一个将重建引导的局部知识传递给全局对比模型的编码器-解码器 ReCon-block,将对比学习与生成式自监督学习统一,在 ScanObjectNN 和 ModelNet40 上取得了最先进的结果。

ABSTRACT

Mainstream 3D representation learning approaches are built upon contrastive or generative modeling pretext tasks, where great improvements in performance on various downstream tasks have been achieved. However, we find these two paradigms have different characteristics: (i) contrastive models are data-hungry that suffer from a representation over-fitting issue; (ii) generative models have a data filling issue that shows inferior data scaling capacity compared to contrastive models. This motivates us to learn 3D representations by sharing the merits of both paradigms, which is non-trivial due to the pattern difference between the two paradigms. In this paper, we propose Contrast with Reconstruct (ReCon) that unifies these two paradigms. ReCon is trained to learn from both generative modeling teachers and single/cross-modal contrastive teachers through ensemble distillation, where the generative student guides the contrastive student. An encoder-decoder style ReCon-block is proposed that transfers knowledge through cross attention with stop-gradient, which avoids pretraining over-fitting and pattern difference issues. ReCon achieves a new state-of-the-art in 3D representation learning, e.g., 91.26% accuracy on ScanObjectNN. Codes have been released at https://github.com/qizekun/ReCon.

研究动机与目标

  • 推动对比学习与生成式自监督学习在三维表示上的结合,以克服数据密集型与数据填充型的局限性。
  • 提出 ReCon 通过集合蒸馏和重建引导的对比框架,将两种范式统一起来。
  • 通过在编码器-解码器 ReCon-block 中引入带停止梯度的跨注意力,解决简单多任务学习中的模式差异和过拟合问题。
  • 证明 ReCon 在单模态和跨模态(3D+2D+文本)预训练中提升泛化能力和数据效率。
  • 提供广泛的消融和迁移评估,显示在三维基准上的最先进结果。

提出的方法

  • 将对比学习和生成学习视为来自多个教师的蒸馏。
  • 引入一个带有编码器-解码器 Transformer 架构的 ReCon-block,其中跨注意力将重建引导的嵌入传递给全局对比解码器,使用停止梯度以避免任务冲突。
  • 在 ShapeNet 上进行单模态与跨模态输入的预训练(3D 点云、渲染的 RGB 图像和语言描述)。
  • 将掩码生成建模用作局部重建引导,并为解码器设定全局跨模态对比目标。
  • 对比目标使用 Smooth L1 距离,重建使用 Chamfer 距离,并在跨注意力连接处使用停止梯度。
  • 在 ScanObjectNN 和 ModelNet40 上通过全量、线性/MLP 与少样本迁移协议进行评估,包括零-shot 迁移。

实验结果

研究问题

  • RQ1对比学习和生成学习的共享收益是否可以通过集合蒸馏在三维中实现知识对齐?
  • RQ2通过 ReCon-block 的重建引导对比学习是否在泛化和数据效率上优于天真多任务预训练?
  • RQ3哪些架构与训练选择(掩码比例、解码器深度、2D 教师)能优化 ReCon 的三维任务预训练?

主要发现

  • ReCon 在自监督三维学习上达到新的最先进水平,例如在 ScanObjectNN 和 ModelNet40 上取得显著提升。
  • ReCon 在单模态与跨模态设置下提供稳健的迁移性能,超越 Point-MAE 及其他 SSL 方法。
  • 消融结果表明,最优的掩码、解码器深度以及使用 2D 视觉教师(ViT)在预训练中优于 CLIP 及其他教师。
  • 跨注意力中的停止梯度至关重要;去除后性能显著下降。
  • ModelNet40/ModelNet10 的零-shot 结果超过若干前置方法,包括 PointCLIP 和 CLIP2Point。
  • ReCon 通过注意力可视化展示了局部几何关注与全局三维理解的双重能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。