Skip to main content
QUICK REVIEW

[論文レビュー] Backprop KF: Learning Discriminative Deterministic State Estimators

Tuomas Haarnoja, Anurag Ajay|arXiv (Cornell University)|May 23, 2016
Human Pose and Action Recognition参考文献 23被引用数 101
ひとこと要約

本論文は、Backprop KF(BKF)を提案します。これは、カルマンフィルタを微分可能な計算グラフに展開し、逆伝播でエンドツーエンドに訓練する識別的で決定論的な状態推定器で、画像のような高次元観測からの入力を可能にします。

ABSTRACT

Generative state estimators based on probabilistic filters and smoothers are one of the most popular classes of state estimators for robots and autonomous vehicles. However, generative models have limited capacity to handle rich sensory observations, such as camera images, since they must model the entire distribution over sensor readings. Discriminative models do not suffer from this limitation, but are typically more complex to train as latent variable models for state estimation. We present an alternative approach where the parameters of the latent state distribution are directly optimized as a deterministic computation graph, resulting in a simple and effective gradient descent algorithm for training discriminative state estimators. We show that this procedure can be used to train state estimators that use complex input, such as raw camera images, which must be processed using expressive nonlinear function approximators such as convolutional neural networks. Our model can be viewed as a type of recurrent neural network, and the connection to probabilistic filtering allows us to design a network architecture that is particularly well suited for state estimation. We evaluate our approach on synthetic tracking task with raw image inputs and on the visual odometry task in the KITTI dataset. The results show significant improvement over both standard generative approaches and regular recurrent neural networks.

研究の動機と目的

  • 観測分布全体をモデル化せずに高次元の観測を扱う識別的な状態推定を動機づける。
  • エンドツーエンド訓練を可能にする、状態推定器の決定論的計算グラフ形式を提案する。
  • カルマンフィルタコアを通じてドメイン知識を組み込みつつ、表現力のある観測モデル(例:CNNs)を許容する。
  • 標準的な生成モデル法および vanilla RNN と比較して、視覚ベースの追跡および KITTI visual odometry で性能の向上を示す。

提案手法

  • 判別的に訓練された観測モデル g_theta(o_t) を用いてカルマンフィルタを展開することで、決定論的な計算グラフを構築する。
  • κ(s_{t-1}, z_t)、q(s_t)、および l(φ_{y_t}) を微分することで、Time Backpropagation(BPTT)を用いてエンドツーエンド訓練を行う。
  • 生データ観測 o_t を処理する CNN から z_t と R_t を出力し、観測不確実性を推定器が重み付けできるようにする。
  • 状態更新には拡張カルマンフィルタ(または KF のバリアント)を使用しつつ、観測ネットワークとフィルタパラメータを最適化する。
  • 確率的フィルタリングに基づきつつ、全体モデルを決定論的な RNN のような計算グラフとして扱う。

実験結果

リサーチクエスチョン

  • RQ1画像のような高次元の観測を扱う場合、確率的フィルタの構造に合わせた識別的・決定論的な状態推定器は、従来の生成的フィルタを上回ることができるか。
  • RQ2観測モデルとフィルタのエンドツーエンド訓練は、部分的訓練や汎用 RNN と比較して、視覚ベースのタスク(遮蔽を伴う追跡や KITTI visual odometry)における状態推定精度を改善するか。
  • RQ3観測依存の不確実性(R_t)を組み込むことは、遮蔽やノイズ下での推定性能にどのように影響するか。

主な発見

  • BKF は、遮蔽を伴う合成視覚追跡タスクにおいて、標準の生成的 KF ベース推定器および vanilla LSTM を上回る。
  • BKF は RMS 追跡誤差を低く抑え、0.0537 を達成。これは feedforward(0.2322)、piecewise KF(0.1160)、および LSTM 系(0.1407–0.1423)より良い。
  • KITTI visual odometry では、BKF が様々な学習データサイズで、piecewise KF および LSTM ベースラインよりも翻訳および回転精度が優れる。
  • CNN ベースの観測モデルを用いたエンドツーエンド訓練により、フィルタは最終的な状態推定性能を最大化するように観測不確実性(R_t)を適応できる。
  • BKF は、ドメイン知識(KF 構造)を活用しつつ、表現力のある識別的観測処理の恩恵を受けることで、データ効率の利点を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。