[论文解读] Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining
本文提出了一种新型的3D预训练方法——对比像素到点知识迁移(PPKT),该方法利用预训练的2D卷积神经网络(CNN)在无需额外3D标注的情况下初始化3D神经网络。通过可微分的反投影操作和可学习的上采样投影层,将2D像素特征与3D点特征对齐,实现2D与3D表示之间的对比学习,在3D语义分割和目标检测任务上取得了最先进性能,mAP显著提升。
Most 3D neural networks are trained from scratch owing to the lack of large-scale labeled 3D datasets. In this paper, we present a novel 3D pretraining method by leveraging 2D networks learned from rich 2D datasets. We propose the contrastive pixel-to-point knowledge transfer to effectively utilize the 2D information by mapping the pixel-level and point-level features into the same embedding space. Due to the heterogeneous nature between 2D and 3D networks, we introduce the back-projection function to align the features between 2D and 3D to make the transfer possible. Additionally, we devise an upsampling feature projection layer to increase the spatial resolution of high-level 2D feature maps, which enables learning fine-grained 3D representations. With a pretrained 2D network, the proposed pretraining process requires no additional 2D or 3D labeled data, further alleviating the expensive 3D data annotation cost. To the best of our knowledge, we are the first to exploit existing 2D trained weights to pretrain 3D deep neural networks. Our intensive experiments show that the 3D models pretrained with 2D knowledge boost the performances of 3D networks across various real-world 3D downstream tasks.
研究动机与目标
- 解决大规模标注3D数据集缺乏的问题,该问题阻碍了3D神经网络的有效预训练。
- 探索预训练2D网络的知识是否可有效迁移至3D网络以提升下游任务性能。
- 开发一种方法,实现在无需额外3D标注或对齐的2D-3D数据的情况下,从2D到3D的知识迁移。
- 克服2D与3D网络架构之间的异质性以及像素与点特征之间的错位问题。
提出的方法
- 提出一种对比像素到点知识迁移(PPKT)框架,将2D像素级特征映射到共享嵌入空间中的3D点级特征。
- 引入可微分的反投影函数,通过基于相机投影将2D特征图投影到3D点云上,实现2D特征图与3D点云的对齐。
- 设计可学习的上采样特征投影层(UPL),以恢复低分辨率2D特征的空间分辨率,从而实现细粒度的特征迁移。
- 使用预训练的2D网络(如ResNet50)作为教师模型,预训练阶段无需额外的2D或3D标注数据。
- 在2D像素特征与3D点特征之间应用对比学习,以促进特征对齐并提升表示质量。
- 采用预训练-微调协议,即3D模型通过PPKT初始化,并在下游3D任务上进行微调。
实验结果
研究问题
- RQ1能否有效将预训练2D CNN的知识迁移至3D神经网络,以提升其在下游任务上的性能?
- RQ2尽管存在架构和数据模态差异,如何将2D网络的像素级特征与3D空间中的点级特征对齐?
- RQ3使用2D自监督预训练模型(如MoCo)作为教师,其性能是否与使用监督ImageNet预训练的教师相当?
- RQ4当标注的3D数据有限或3D网络较大时,该方法是否能提升3D表示学习?
- RQ5PPKT是否与现有的自监督3D预训练方法(如PointContrast)具有互补性?
主要发现
- 与从零开始训练相比,PPKT在ScanNet目标检测基准上实现了+3.17 mAP@0.25的性能提升。
- 在SUN RGB-D数据集上,PPKT将mAP从从零开始训练的32.81%提升至33.92%,表明在多个数据集上均具有一致的性能增益。
- 在S3DIS语义分割任务上,PPKT优于PointContrast,mIoU达到68.27%,而PointContrast为66.86%。
- 使用自监督MoCo预训练的2D教师模型可达到与监督ImageNet教师模型相当的性能,表明该方法对教师模型预训练策略具有鲁棒性。
- T-SNE可视化结果表明,PPKT在无任何3D监督的情况下学习到了语义上有意义的点特征,展现出强大的零样本语义理解能力。
- 当3D网络较大或标注数据稀缺时,性能增益最为显著,凸显了该方法在低资源场景下的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。