[论文解读] Self-supervised Learning with Geometric Constraints in Monocular Video: Connecting Flow, Depth, and Camera
GLNet 是一种自监督深度学习框架,通过施加对极几何和光度一致性等几何约束,从单目视频中联合估计深度、光流、相机位姿和内参。它在 KITTI 和 Cityscapes 数据集上实现了最先进性能,显著提升了准确性和鲁棒性,尤其得益于在线微调和未校准视频适应能力。
We present GLNet, a self-supervised framework for learning depth, optical flow, camera pose and intrinsic parameters from monocular video - addressing the difficulty of acquiring realistic ground-truth for such tasks. We propose three contributions: 1) we design new loss functions that capture multiple geometric constraints (eg. epipolar geometry) as well as an adaptive photometric loss that supports multiple moving objects, rigid and non-rigid, 2) we extend the model such that it predicts camera intrinsics, making it applicable to uncalibrated video, and 3) we propose several online refinement strategies that rely on the symmetry of our self-supervised loss in training and testing, in particular optimizing model parameters and/or the output of different tasks, thus leveraging their mutual interactions. The idea of jointly optimizing the system output, under all geometric and photometric constraints can be viewed as a dense generalization of classical bundle adjustment. We demonstrate the effectiveness of our method on KITTI and Cityscapes, where we outperform previous self-supervised approaches on multiple tasks. We also show good generalization for transfer learning in YouTube videos.
研究动机与目标
- 解决在缺乏真实世界真实值监督的情况下,从单目视频中学习三维场景几何的挑战。
- 克服依赖昂贵数据采集(如 LiDAR)或在合成数据中存在域偏移的监督方法的局限性。
- 将几何先验(如对极约束和多视角一致性)整合到深度学习框架中,以提升几何一致性与泛化能力。
- 实现深度、光流、位姿和相机内参的端到端联合优化,包括打破训练-测试不对称性的在线微调。
- 通过预测内参支持未校准视频,提升模型在真实世界和多样化测试场景中的可迁移性。
提出的方法
- 提出一种新颖的自监督损失函数,结合自适应光度损失与几何约束(如对极几何),以在图像对之间强制保持一致性。
- 引入多视角结构一致性损失,利用光流强制约束深度和位姿预测的时间一致性。
- 设计一种基于对极约束的可微几何损失,以正则化刚性运动估计并提升光流质量。
- 将网络扩展为端到端预测相机内参,从而在无需预先校准的情况下应用于未校准视频。
- 引入在线微调策略——PFT 和 OFT——在所有几何与光度约束下联合优化模型参数与输出,以密集且可微的方式模拟捆绑调整。
- 利用自监督损失中的对称性,实现高效的推理时自适应,使微调速度最高提升 10 倍。
实验结果
研究问题
- RQ1能否有效将对极几何等几何约束整合进自监督深度学习框架,以提升从单目视频中重建三维结构的性能?
- RQ2与独立或弱耦合学习相比,联合优化深度、光流、位姿和内参参数在性能与泛化能力方面有何提升?
- RQ3在线微调策略在多大程度上能打破训练与推理之间的不对称性,从而提升真实部署中的鲁棒性与准确性?
- RQ4在未校准视频(如 YouTube)中,尤其当内参未知时,一个在某一数据集(如 KITTI)上训练的自监督模型能否有效泛化到不同领域?
- RQ5与固定或预校准内参相比,端到端预测相机内参是否能提升在未校准设置下的性能与适应性?
主要发现
- GLNet 在 KITTI 上的深度估计任务中达到最先进性能,相比基线模型相对提升 1.2%,并优于先前的自监督方法。
- 在光流任务上,GLNet 在非遮挡区域(Noc)的平均端点误差(EPE)为 4.86,在所有区域(All)为 8.35,显著优于基线(6.80 和 12.28),并匹配或超越了 FlowNetS 等监督模型。
- 对极约束损失对光流性能提升贡献最大,相比基线将 EPE 降低超过 1.3 个点,定性结果也显示刚性运动估计更清晰。
- 在 KITTI 里程计基准测试中,位姿估计的绝对轨迹误差(ATE)在序列 09 上为 0.011 ± 0.006,在序列 10 上为 0.011 ± 0.009,优于先前的自监督方法,并与 ORB-SLAM 和 GeoNet 相当或更优。
- 通过 PFT 和 OFT 实现的在线微调显著提升了前向推理预测性能,OFT 达到接近 PFT 的质量,但速度最高提升 10 倍,证明了其在实际部署中的可行性。
- GLNet 在未校准视频(如 YouTube)上表现出良好泛化能力,即使在内参未知的情况下仍保持强劲性能,证实了端到端内参预测与几何正则化的价值在迁移学习中的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。