QUICK REVIEW

[論文レビュー] Approximate Bayesian Image Interpretation using Generative Probabilistic Graphics Programs

Vikash K. Mansinghka, Tejas D. Kulkarni|arXiv (Cornell University)|Jun 29, 2013

Gaussian Processes and Bayesian Inference参考文献 22被引用数 55

ひとこと要約

本稿では、画像解釈のための近似生成モデルを、コンピューターグラフィックスレンダリング、確率的尤度モデル、および潜在変数を組み合わせることで定義する、短い確率的コードを用いた生成的確率的グラフィックスプログラム（GPGP）というフレームワークを紹介する。このフレームワークにより、一般化された自動推論を用いるだけで、実世界の画像に対して正確な近似ベイズ推論が可能となり、20行未塔のコードで文字認識および3次元道路モデリングの分野で最先端の結果を達成した。

ABSTRACT

The idea of computer vision as the Bayesian inverse problem to computer graphics has a long history and an appealing elegance, but it has proved difficult to directly implement. Instead, most vision tasks are approached via complex bottom-up processing pipelines. Here we show that it is possible to write short, simple probabilistic graphics programs that define flexible generative models and to automatically invert them to interpret real-world images. Generative probabilistic graphics programs consist of a stochastic scene generator, a renderer based on graphics software, a stochastic likelihood model linking the renderer's output and the data, and latent variables that adjust the fidelity of the renderer and the tolerance of the likelihood model. Representations and algorithms from computer graphics, originally designed to produce high-quality images, are instead used as the deterministic backbone for highly approximate and stochastic generative models. This formulation combines probabilistic programming, computer graphics, and approximate Bayesian computation, and depends only on general-purpose, automatic inference techniques. We describe two applications: reading sequences of degraded and adversarially obscured alphanumeric characters, and inferring 3D road models from vehicle-mounted camera images. Each of the probabilistic graphics programs we present relies on under 20 lines of probabilistic code, and supports accurate, approximately Bayesian inferences about ambiguous real-world images.

研究の動機と目的

訓練に多大なリソースを要し、容易に変更ができない、複雑で手作業で設計されたボトムアップ型ビジョンパイプラインの限界を克服すること。
ビジョンをグラフィックスの逆問題として定式化することにより、柔軟で解釈可能な画像解釈を可能にすること。
短い高水準の確率的グラフィックスプログラムが、実世界の画像に対して正確で不確実性を考慮した推論を可能にできることを示すこと。
これらのモデルにおける自動推論が、カスタム推論アルゴリズムを必要とせず、従来のエンジニアリング手法を上回ることを示すこと。

提案手法

フレームワークは、オブジェクトの位置やサイズなどのランダムなシーン設定を定義するための確率的シーン生成器を使用する。
既存のグラフィックスソフトウェアに基づく近似レンダラが、シーンパラメータから画像を生成し、標準のレンダリングパイプラインを用いる。
確率的尤度モデルが、レンダリングされた画像と観測データを比較し、潜在変数によるノイズと許容誤差を組み込む。
潜在変数がレンダラの忠実度と尤度の許容度を制御し、近似ベイズ計算を可能にする。
確率的プログラミングシステムを用いた自動メトロポリス・ハスティングス移動により推論が行われ、カスタム推論設計を回避する。
既存のグラフィックスライブラリと確率的プログラミングを活用することで、生成的モデリング、レンダリング、近似ベイズ推論を統合する。

実験結果

リサーチクエスチョン

RQ1短く高水準の確率的グラフィックスプログラムを用いて、カスタム推論アルゴリズムを必要とせずに正確な画像解釈が可能か？
RQ2生成的グラフィックスプログラムにおける近似ベイズ推論が、実世界の画像解釈において整合的な不確実性推定をもたらすか？
RQ3このフレームワークの性能は、実世界のタスクにおいて、確立された手作業で設計されたビジョンパイプラインと比べてどうか？
RQ4レンダリングおよび尤度モデルにおける確率的要因と近似が、信頼性のある推論を支える程度はどの程度か？

主な発見

GPGPフレームワークは、複数の外観を用いた尤度最大化により、KITTIロード検出ベンチマークで74.60％の精度を達成し、Alyら[1]のベースライン手法（68.31％）を上回った。
劣化した画像や敵対的遮断を受ける文字認識タスクにおいて、20行未塔の確率的コードで高い精度を達成し、画像劣化に対する耐性を示した。
図6に示すように、後験分布による不確実性推定が整合的であり、関連する信頼度とともに妥当なシーン解釈が得られた。
複雑さに応じたスケーリングがうまくいった。30文字までの未知の文字を含むモデルについても、収束時間が平坦であることが初期結果で示され、予想をはるかに超える実行可能性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。