Skip to main content
QUICK REVIEW

[論文レビュー] Deeply Learning the Messages in Message Passing Inference

Guosheng Lin, Chunhua Shen|arXiv (Cornell University)|Jun 6, 2015
Domain Adaptation and Few-Shot Learning参考文献 26被引用数 29
ひとこと要約

本論文は、条件付きランダムフィールド(CRF)のメッセージパッシング推論において、潜在関数を学習・評価する必要なく、畳み込みニューラルネットワーク(CNN)を直接メッセージ予測に訓練する、新しい深層学習フレームワークを提案する。エンドツーエンドでメッセージ推定器を学習することで、特にクラス数が多い場合にスケーラブルな高速な訓練と推論を実現し、PASCAL VOC 2012 テストセットで73.4%の平均IoUという最先端の性能を達成した。この性能は、1回のメッセージパッシングイタレーションでの推論に留め、計算コストを大幅に削減している。

ABSTRACT

Deep structured output learning shows great promise in tasks like semantic image segmentation. We proffer a new, efficient deep structured model learning scheme, in which we show how deep Convolutional Neural Networks (CNNs) can be used to estimate the messages in message passing inference for structured prediction with Conditional Random Fields (CRFs). With such CNN message estimators, we obviate the need to learn or evaluate potential functions for message calculation. This confers significant efficiency for learning, since otherwise when performing structured learning for a CRF with CNN potentials it is necessary to undertake expensive inference for every stochastic gradient iteration. The network output dimension for message estimation is the same as the number of classes, in contrast to the network output for general CNN potential functions in CRFs, which is exponential in the order of the potentials. Hence CNN message learning has fewer network parameters and is more scalable for cases that a large number of classes are involved. We apply our method to semantic image segmentation on the PASCAL VOC 2012 dataset. We achieve an intersection-over-union score of 73.4 on its test set, which is the best reported result for methods using the VOC training images alone. This impressive performance demonstrates the effectiveness and usefulness of our CNN message learning method.

研究の動機と目的

  • CNNの潜在関数を伴うCRFにおける連合学習の計算非効率性を解消する。これは、SGDステップごとに高価な周辺推論を必要とするためである。
  • 高クラス数の状況におけるスケーラビリティを向上させる。潜在関数の次数に伴う指数的増加(K^a)から線形的増加(K)に減少させるために、直接メッセージを学習することで実現する。
  • 1回のメッセージパッシングイタレーションで推論を高速化するため、メッセージ推定器を事前学習する。
  • 従来のCRF-CNN連合学習と比較して、直接的なメッセージ学習が同等または上回る性能を達成できることを示す。

提案手法

  • メッセージパッシング推論におけるメッセージを直接推定する深層CNNの訓練を提案し、潜在関数の学習を不要にする。
  • 出力次元をクラス数Kに等しくするメッセージ推定器ネットワークを設計し、潜在関数の次数に伴う指数的増加を回避する。
  • 標準的な分類目的関数を用いて、逆誤差伝搬法によるエンドツーエンドのバックプロパゲーションでメッセージ推定器を学習し、学習中に反復的推論を必要としなくなる。
  • 推論時に1回のメッセージパッシングイタレーションを採用し、実行時間を著しく短縮しながらも高い精度を維持する。
  • 一般化と性能向上のため、データ拡張(4スケールおよびフリップ)を適用する。
  • PASCAL VOC 2012データセットを用いて、セマンティック画像セグメンテーションに本フレームワークを適用する。

実験結果

リサーチクエスチョン

  • RQ1CRFのメッセージパッシング推論を、潜在関数を明示的にモデル化せずに、深層CNNを用いてエンドツーエンドで学習可能か?
  • RQ2従来のCNNとCRFの連合学習と比較して、直接的なメッセージ学習は訓練および推論を高速化できるか?
  • RQ3モデルの複雑さを低減しながら、特に高クラス数の状況において性能を維持または向上できるか?
  • RQ4標準ベンチマーク上で、直接的メッセージ学習の性能は最先端のCRF-CNN手法と比較してどうか?

主な発見

  • 提案手法は、PASCAL VOC 2012テストセットで73.4%の平均交差率(IoU)を達成し、同データセットで学習された同等の手法をすべて上回った。
  • VOC 2012トレーニングセット(約1万枚の画像)のみを用いて学習したモデルであり、COCOで学習した手法よりもはるかに少ない学習画像数で、最先端の性能を達成した。
  • 133,000枚のCOCO画像で学習したモデルと同等の性能を示し、高いデータ効率性と一般化能力を示した。
  • 1回のメッセージパッシングイタレーションでのみ推論を実行したため、推論はほぼ瞬時に完了し、非常にスケーラブルである。
  • メッセージ推定器ネットワークはK出力(K = クラス数)のみを有するため、特にKが大きい場合に、潜在関数ベースのアプローチと比較して大幅にパラメータ数が減少した。
  • PASCAL VOC 2012テストセットの大多数のカテゴリで、DeepLab-CRF、CRF-RNN、ContextDCRFといったベースラインCRF-CNNモデルを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。