QUICK REVIEW

[論文レビュー] CRF-CNN: Modeling Structured Information in Human Pose Estimation

Xiao Chu, Wanli Ouyang|arXiv (Cornell University)|Nov 2, 2016

Human Pose and Action Recognition被引用数 37

ひとこと要約

本論文では、人体ポーズ推定におけるボディジョイントおよび特徴量の構造的関係をモデル化するため、条件付きランダムフィールド（CRF）を畳み込みニューラルネットワーク（CNN）に統合した深層学習フレームワーク、CRF-CNNを提案する。同じ層内で畳み込み演算を用いたメッセージパッシングを可能にすることで、ジョイント間を効率的に情報伝達し、エンドツーエンド学習を実現し、ベンチマークデータセット上で精度を向上させ、従来手法に比べ平均で最大3%の向上を達成した。

ABSTRACT

Deep convolutional neural networks (CNN) have achieved great success. On the other hand, modeling structural information has been proved critical in many vision problems. It is of great interest to integrate them effectively. In a classical neural network, there is no message passing between neurons in the same layer. In this paper, we propose a CRF-CNN framework which can simultaneously model structural information in both output and hidden feature layers in a probabilistic way, and it is applied to human pose estimation. A message passing scheme is proposed, so that in various layers each body joint receives messages from all the others in an efficient way. Such message passing can be implemented with convolution between features maps in the same layer, and it is also integrated with feedforward propagation in neural networks. Finally, a neural network implementation of end-to-end learning CRF-CNN is provided. Its effectiveness is demonstrated through experiments on two benchmark datasets.

研究の動機と目的

既存のCNNが人体ポーズ推定におけるボディジョイントおよび特徴量の構造的関係をモデル化する点で限界を示しているのを是正すること。
確率的グラフィカルモデル（CRF）を原理的かつ整合的に深層ニューラルネットワークと統合し、特徴量レベルおよび出力レベルの両方で構造的推論を可能にすること。
各ジョイントが他のすべてのジョイントから文脈的情報を計算的に妥当な方法で受信できる、効率的なメッセージパッシング機構を開発すること。
バックプロパゲーションと互換性のある微分可能な演算を用いて複雑なCRF推論を近似することで、CRF-CNNフレームワークのエンドツーエンド学習を可能にすること。
標準的な人体ポーズ推定ベンチマーク上でフレームワークの有効性を実証し、最先端手法に比べて性能向上を示すこと。

提案手法

エネルギー関数を用いたギブス分布を用いて、隠れ特徴層および出力層の両方で構造的情報をモデル化するCRF-CNNフレームワークを提案する。
和積アルゴリズムに基づくメッセージパッシング方式を導入し、特徴マップ上の畳み込み演算を通じて、層間のジョイント間での効率的な情報交換を実現する。
フラッディングおよび逐次的メッセージパッシングスケジュールを採用。逐次的スケジュールは、少ないイテレーションで完全な周辺分布を達成でき、性能向上を実現する。
標準的なReLUやソフトマックスとは異なり、スケーリングおよび温度パラメータを備えた変更版ソフトマックス非線形関数を採用し、学習の安定性を向上させるとともに収束を加速する。
CNNとCRFコンponentsの共同最適化を可能にするために、CRF-CNN全体を微分可能なニューラルネットワークとして実装し、エンドツーエンドのバックプロパゲーションを実現する。
空間的関係（出力-出力）、特徴量間関係（特徴量-特徴量）、およびジョイント外観（特徴量-出力）を同時にモデル化することで、ポーズ推定にフレームワークを適用する。

実験結果

リサーチクエスチョン

RQ1特徴量レベルおよび出力レベルの両方での構造的モデリングが、標準的なCNNを上回る人体ポーズ推定を実現できるか？
RQ2畳み込み演算を用いて、深層ニューラルネットワーク内でのCRFにおけるメッセージパッシングをどのように効率的に実装できるか？
RQ3フラッディング対逐次的という異なるメッセージパッシングスケジュール、および木構造対ループ付きグラフという異なるグラフ構造が、ポーズ推定精度に与える影響は何か？
RQ4メッセージパッシングにおける非線形活性化関数の選択が、学習の安定性および最終的な性能に与える影響は何か？
RQ5統合されたCRFフレームワークをCNNとエンドツーエンドで学習可能にでき、確率的モデリングの利点を保持できるか？

主な発見

MPIIデータセットでは98.0%、COCOキーポイントデータセットでは94.1%の平均ポーズ精度を達成し、以前の最先端手法を上回った。
変更版ソフトマックスを用いた逐次的メッセージパッシング方式は、80.1%のReLUベース手法に比べ3%向上する83.1%の平均精度を達成した。
2回のフラッディングイテレーションを伴うループ付きグラフ構造は、木構造バージョンに比べ1.3%の性能向上を示し、複雑なジョイント関係をモデル化する利点を裏付けた。
温度およびスケーリングパラメータを備えた変更版ソフトマックスは、標準的なソフトマックスやReLUと比較して、収束を加速させるとともに学習の安定性を向上させた。
2イテレーションのフラッディングメッセージパッシングは1イテレーションと比較して僅かな改善に留まり、長距離メッセージ伝達の非効率性を示した。
CRFに基づく構造的モデリングをCNNに効果的に統合し、畳み込みによるメッセージパッシングにより計算効率を維持しながらエンドツーエンド学習を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。