Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Object Parsing with Local-Global Long Short-Term Memory

Xiaodan Liang, Xiaohui Shen|arXiv (Cornell University)|Nov 14, 2015
Multimodal Machine Learning Applications参考文献 31被引用数 30
ひとこと要約

本稿では、局所的な隣接画素からの空間的依存関係と、画像全体からのグローバルな文脈的情報を同時にモデル化することで、セマンティックオブジェクトパーセプションにおける特徴抽出を向上させる、新たな深層アーキテクチャであるローカル・グローバル長短期記憶(LG-LSTM)を提案する。中間の畳み込み特徴にLG-LSTM層をスタックすることで、エンド・ツー・エンド学習により、3つの公的データセットで最先端の性能を達成し、ベースラインのCNNや従来の後処理手法に比べて画素単位のセグメンテーション精度を顕著に向上させた。

ABSTRACT

Semantic object parsing is a fundamental task for understanding objects in detail in computer vision community, where incorporating multi-level contextual information is critical for achieving such fine-grained pixel-level recognition. Prior methods often leverage the contextual information through post-processing predicted confidence maps. In this work, we propose a novel deep Local-Global Long Short-Term Memory (LG-LSTM) architecture to seamlessly incorporate short-distance and long-distance spatial dependencies into the feature learning over all pixel positions. In each LG-LSTM layer, local guidance from neighboring positions and global guidance from the whole image are imposed on each position to better exploit complex local and global contextual information. Individual LSTMs for distinct spatial dimensions are also utilized to intrinsically capture various spatial layouts of semantic parts in the images, yielding distinct hidden and memory cells of each position for each dimension. In our parsing approach, several LG-LSTM layers are stacked and appended to the intermediate convolutional layers to directly enhance visual features, allowing network parameters to be learned in an end-to-end way. The long chains of sequential computation by stacked LG-LSTM layers also enable each pixel to sense a much larger region for inference benefiting from the memorization of previous dependencies in all positions along all dimensions. Comprehensive evaluations on three public datasets well demonstrate the significant superiority of our LG-LSTM over other state-of-the-art methods.

研究の動機と目的

  • 細分化された画素レベルのオブジェクトパーセプションにおいて、CNNが長距離およびグローバルな文脈的依存関係を捉えることの制限を解消すること。
  • CRF や平均場近似といった従来の後処理手法が、文脈的関係をモデル化する際に非効率的で最適でない性能を示す問題を克服すること。
  • 特徴抽出の過程で局所的およびグローバルな文脈をシームレスに統合できる深層学習アーキテクチャを開発し、エンド・ツー・エンド学習を可能にすること。
  • 空間的および深さ方向の両方における長期依存関係を保持するメモリセルを活用することで、視覚的特徴の判別能力を向上させること。

提案手法

  • LG-LSTMアーキテクチャは、空間的次元(水平、垂直、対角)ごとに個別のLSTMを用い、ネットワークの各層を横断して情報を伝搬するための深さ方向LSTMを備えている。
  • 局所的ガイドラインは、8つの隣接する空間的位置からの隠れ状態によって提供され、豊富な局所的文脈のモデル化が可能になる。
  • グローバルなガイドラインは、前層の隠れマップを9つのグリッドに分割し、各グリッドに対して最大プーリングを適用することで、判別性の高いグローバル特徴を抽出することで実装されている。
  • グローバルおよび局所の隠れ状態が、各位置のLSTMへの入力として組み合わされ、各画素が局所的な近傍と画像全体の文脈の両方を注目できるようになっている。
  • 複数のLG-LSTM層をスタックし、完全畳み込みネットワーク内の途中の畳み込み層に接続することで、階層的な特徴強化が可能になった。
  • メモリセルは、すべての位置を渡る長期的な文脈的依存関係を記憶しており、逐次計算により各画素がより大きな受容 field を感じ取れるようになっている。

実験結果

リサーチクエスチョン

  • RQ1後処理に依存せずに、統合された深層学習アーキテクチャが、セマンティックオブジェクトパーセプションにおける局所的およびグローバルな空間的依存関係を効果的にモデル化できるか。
  • RQ2局所的な空間的接続とグローバルな画像全体の文脈を統合することで、標準的なCNNと比較して画素単位分類精度がどの程度向上するか。
  • RQ3再帰的メモリセルを介して捉えた長距離依存関係が、セマンティックセグメンテーションタスクにおける特徴表現をどの程度向上させるか。
  • RQ4従来の後処理手法(CRF や平均場近似)に比べて、提案されたLG-LSTMアーキテクチャは、正確性および効率性の面で優れているか。
  • RQ5LG-LSTM層のエンド・ツー・エンド学習が、外観的および位置的変動が激しい課題において、より良い一般化性能とロバスト性をもたらすか。

主な発見

  • LG-LSTMモデルは、PASCAL-Contextデータセットで69.4%の平均IoUを達成し、ベースラインのVGG16や他の最先端手法を顕著に上回った。
  • Horse-Cowデータセットでは、'LG-LSTM local_2'バージョンに対して4.19%、'LG-LSTM local_4'に対して2.94%の平均IoU向上を達成し、8つの空間的接続の重要性を示した。
  • LG-LSTMからグローバルガイドラインを除去すると、馬のクラスで1.27%、牛のクラスで1.81%のIoU低下が生じ、文脈の明確化にグローバルな情報が重要であることを裏付けた。
  • グローバル画像文脈を活用することで、'スカート'対'ドレス'や'脚'対'ズボン'といった曖昧な領域のセグメンテーション誤りが低減された。
  • 同等のパラメータ数を有する5つの追加畳み込み層と比較して、LG-LSTMは馬クラスで2.78%、牛クラスで4.86%の平均IoU向上を達成し、長距離パターンのモデル化能力が優れていることを示した。
  • 定性的な結果から、LG-LSTMはVGG16 や Co-CNN と比較して、より一貫性があり意味的に整合性が高く、境界を保全する予測を生成しており、特にテールや脚のような小さな部分や視覚的に類似した部分でも顕著であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。