QUICK REVIEW

[论文解读] Holopix50k: A Large-Scale In-the-wild Stereo Image Dataset

Yiwen Hua, Puneet Kohli|arXiv (Cornell University)|Mar 25, 2020

Advanced Vision and Imaging参考文献 55被引用 26

一句话总结

本文介绍了 Holopix50k，这是一个大规模的野外立体图像数据集，包含从 Holopix 移动社交平台收集的 49,368 个用户生成的校正立体图像对。该数据集显著提升了立体超分辨率和自监督单目深度估计的性能，由于其规模、多样性以及真实的移动摄影条件，相较于现有数据集展现出更优的性能和泛化能力。

ABSTRACT

With the mass-market adoption of dual-camera mobile phones, leveraging stereo information in computer vision has become increasingly important. Current state-of-the-art methods utilize learning-based algorithms, where the amount and quality of training samples heavily influence results. Existing stereo image datasets are limited either in size or subject variety. Hence, algorithms trained on such datasets do not generalize well to scenarios encountered in mobile photography. We present Holopix50k, a novel in-the-wild stereo image dataset, comprising 49,368 image pairs contributed by users of the Holopix mobile social platform. In this work, we describe our data collection process and statistically compare our dataset to other popular stereo datasets. We experimentally show that using our dataset significantly improves results for tasks such as stereo super-resolution and self-supervised monocular depth estimation. Finally, we showcase practical applications of our dataset to motivate novel works and use cases. The Holopix50k dataset is available at http://github.com/leiainc/holopix50k

研究动机与目标

解决缺乏大规模、多样化、能代表移动摄影场景的野外立体图像数据集的问题。
通过提供在场景内容、光照和相机配置方面具有高度可变性的数据集，提升立体视觉模型的泛化能力。
通过大规模真实世界训练数据，实现立体超分辨率和自监督单目深度估计的最先进性能。
支持实时视差估计、3D 摄影和光场成像等实际移动应用。
通过发布公开可用的高质量数据集，为未来野外立体视觉研究奠定基础。

提出的方法

数据集从 Holopix 移动社交平台的用户上传内容中收集，该平台专注于光场和立体影像。
使用学习到的立体视差网络对图像进行过滤和校正，以确保对齐和质量，伪标签视差图被用作过滤标准。
采用类似 U-Net 的架构训练立体视差估计网络，参数量约 340k，计算量约 1.5 GFLOPS，以实现高保真边缘细节。
为移动端部署训练了一个轻量级实时视差估计网络，参数量约 15k，计算量约 0.15 GFLOPS，优先考虑速度而非精细细节。
使用 Holopix50k 和 Megadepth 数据集的组合，通过立体网络生成的伪标签深度图，训练了半监督单目深度估计模型。
训练流程采用类似 Pix2Pix 的架构，并使用 PatchGAN 判别器，以实现基于立体深度的生成式图像转换建模。

实验结果

研究问题

RQ1从移动社交平台收集的大规模野外立体图像数据集能否提升立体超分辨率和自监督深度估计的性能？
RQ2与现有立体数据集相比，Holopix50k 中用户生成数据的多样性与真实感在泛化能力和鲁棒性方面表现如何？
RQ3在 Holopix50k 上训练的模型在真实世界和合成立体基准（如 Middlebury）上的泛化能力达到何种程度？
RQ4能否有效利用训练好的立体网络生成的伪标签视差图来过滤和整理大规模数据集？
RQ5基于该数据集训练的高质量实时视差估计模型，能够支持哪些实际移动应用？

主要发现

Holopix50k 包含 49,368 个高质量、已校正的立体图像对，是迄今为止最大的公开可用野外立体数据集。
该数据集在多样性、场景多样性以及质量指标方面优于现有数据集，尤其在捕捉真实移动摄影条件方面表现突出。
在 Holopix50k 上训练的模型在立体超分辨率和自监督单目深度估计方面表现出显著提升，边缘细节更清晰，深度分层更准确。
立体视差估计网络在 Middlebury 基准测试中验证了其高立体一致性与清晰的边缘细节。
实时视差网络虽更平滑，但推理速度可行，适用于视频通话和光场预览等移动应用。
使用 Holopix50k 和 Megadepth 训练的半监督单目深度模型在近距离和中距离场景（包括人物主体）中泛化良好，而基线模型在此类场景中表现失败。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。