QUICK REVIEW

[论文解读] Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?

Runpei Dong, Zekun Qi|arXiv (Cornell University)|Dec 16, 2022

Domain Adaptation and Few-Shot Learning被引用 20

一句话总结

本文提出 Autoencoders 作为 Cross-Modal Teachers (ACT)，它使用预训练的 2D 图像或语言 Transformers 作为跨模态教师，通过 masked point modeling 指导自监督的 3D 表征学习，在多项 3D 任务中实现强泛化。

ABSTRACT

The success of deep learning heavily relies on large-scale data with comprehensive labels, which is more expensive and time-consuming to fetch in 3D compared to 2D images or natural languages. This promotes the potential of utilizing models pretrained with data more than 3D as teachers for cross-modal knowledge transferring. In this paper, we revisit masked modeling in a unified fashion of knowledge distillation, and we show that foundational Transformers pretrained with 2D images or natural languages can help self-supervised 3D representation learning through training Autoencoders as Cross-Modal Teachers (ACT). The pretrained Transformers are transferred as cross-modal 3D teachers using discrete variational autoencoding self-supervision, during which the Transformers are frozen with prompt tuning for better knowledge inheritance. The latent features encoded by the 3D teachers are used as the target of masked point modeling, wherein the dark knowledge is distilled to the 3D Transformer students as foundational geometry understanding. Our ACT pretrained 3D learner achieves state-of-the-art generalization capacity across various downstream benchmarks, e.g., 88.21% overall accuracy on ScanObjectNN. Codes have been released at https://github.com/RunpeiDong/ACT.

研究动机与目标

由于 3D 数据稀缺，激发跨模态知识迁移到 3D 学习的动机。
利用预训练的 2D 图像和语言 Transformers 作为教师来进行 3D 自编码。
开发一个两阶段训练框架，以继承丰富的语义用于 3D 表征。
在不产生额外下游数据标注的情况下，保留预训练知识。

提出的方法

将 3D 学习建模框为在跨模态教师引导下的 masked modeling。
Stage I: 使用 prompt tuning 微调预训练的 Transformers 作为 3D Autoencoder。
Stage II: 通过 masked point modeling 与 cosines 相似度损失，将来自 3D Autoencoder (teacher) 的潜在特征蒸馏给 3D Transformer student。
在 3D Autoencoder 中使用离散变分自编码器 (dVAE) tokenizer 与 FoldingNet 基于的重建。
使用 prompt embeddings 与两阶段训练，在跨模态迁移过程中保留预训练知识。
用统一的 masked modeling 目标（negative cosine similarity）将基于掩码的蒸馏落地。

实验结果

研究问题

RQ1预训练的 2D 图像或语言 Transformers 能否在没有 2D/语言下游数据的情况下改善自监督的 3D 表征学习？
RQ2在将 Transformers 适配为 3D 自编码时，prompt tuning 是否有助于保留跨模态知识？
RQ3带有跨模态教师的 masked point modeling 对 3D Transformers 是否有效？
RQ4与 2D/3D SSL 方法相比，ACT 在各种 3D 下游任务上的表现如何？

主要发现

ACT 在多项 3D 下游任务上表现出强泛化能力，在 ScanObjectNN 上尤为显著提升。
在 ScanObjectNN 上，ACT 在某些设置中平均提升了 +11.9% 的准确率。
在 ModelNet40 上，ACT 在 Full transfer 条件下达到 93.7% OA，使用 1k 点。
在 3D 场景分割 (S3DIS Area 5) 上，ACT 将 mAcc 提升了 +2.5%，将 mIoU 提升了 +1.2%。
使用语言模型（BERT-base）作为跨模态教师也能实现具有竞争力的准确性，展示了 ACT 的模态无关能力。
Prompt tuning 与冻结预训练模型在 Stage I 中的表现优于全量微调，保留了更多的预训练知识。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。