[论文解读] Approximate Bayesian Image Interpretation using Generative Probabilistic Graphics Programs
本文提出生成式概率图形程序(GPGP),一种利用简短的概率代码结合计算机图形渲染、随机似然模型和隐变量以实现保真度与容错性的图像解释近似生成模型的框架。该框架仅通过通用的自动推断即可在真实图像上实现准确的近似贝叶斯推断,在字符识别和3D道路建模任务上取得最先进性能,且代码量不足20行。
The idea of computer vision as the Bayesian inverse problem to computer graphics has a long history and an appealing elegance, but it has proved difficult to directly implement. Instead, most vision tasks are approached via complex bottom-up processing pipelines. Here we show that it is possible to write short, simple probabilistic graphics programs that define flexible generative models and to automatically invert them to interpret real-world images. Generative probabilistic graphics programs consist of a stochastic scene generator, a renderer based on graphics software, a stochastic likelihood model linking the renderer's output and the data, and latent variables that adjust the fidelity of the renderer and the tolerance of the likelihood model. Representations and algorithms from computer graphics, originally designed to produce high-quality images, are instead used as the deterministic backbone for highly approximate and stochastic generative models. This formulation combines probabilistic programming, computer graphics, and approximate Bayesian computation, and depends only on general-purpose, automatic inference techniques. We describe two applications: reading sequences of degraded and adversarially obscured alphanumeric characters, and inferring 3D road models from vehicle-mounted camera images. Each of the probabilistic graphics programs we present relies on under 20 lines of probabilistic code, and supports accurate, approximately Bayesian inferences about ambiguous real-world images.
研究动机与目标
- 解决复杂、手工设计的自下而上视觉流水线存在的局限性,这些流水线需要大量训练且难以修改。
- 通过将视觉问题建模为图形的贝叶斯逆问题,实现灵活且可解释的图像解释。
- 证明简短、高层级的概率图形程序可在真实图像上支持准确且具备不确定性感知的推断。
- 表明此类模型中的自动推断可超越传统手工设计的基线方法,而无需定制推断算法。
提出的方法
- 该框架使用随机场景生成器定义随机的场景配置,例如物体的位置和尺寸。
- 基于现有图形软件的近似渲染器根据场景参数生成图像,使用标准渲染流水线。
- 随机似然模型将渲染图像与观测数据进行比较,通过隐变量引入噪声和容错性。
- 隐变量控制渲染器的保真度和似然模型的容错性,从而支持近似贝叶斯计算。
- 通过概率编程系统进行自动的梅特罗波利斯-黑斯廷斯转移执行推断,避免了定制推断设计。
- 该方法利用现有的图形库和概率编程技术,统一了生成建模、渲染与近似贝叶斯推断。
实验结果
研究问题
- RQ1是否可以使用简短、高层级的概率图形程序在无需定制推断算法的情况下实现准确的图像解释?
- RQ2对生成式图形程序进行近似贝叶斯推断是否能在真实图像解释中产生一致的不确定性估计?
- RQ3该框架在真实世界任务上的性能与既有的手工设计视觉流水线相比如何?
- RQ4在渲染和似然模型中引入随机性和近似性,在多大程度上能支持可靠的推断?
主要发现
- GPGP框架在KITTI道路检测基准上通过多次外观的最大似然估计,实现了74.60%的准确率,优于Aly等人[1]的基线方法(68.31%)。
- 在退化和对抗性遮挡的文本上进行字符识别时,该方法仅用不到20行概率代码即实现了高准确率,表现出对图像退化的强鲁棒性。
- 该方法生成了连贯的后验不确定性估计,如图6所示,展示了具有相应置信度的合理场景解释。
- 推断在复杂度增加时仍能良好扩展,初步结果显示即使在包含多达30个未知字母的模型中,收敛时间也保持平坦,表明其在可扩展性上超越了朴素预期。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。