Skip to main content
QUICK REVIEW

[論文レビュー] Recurrent Neural Networks for Semantic Instance Segmentation

Amaia Salvador, Míriam Bellver|arXiv (Cornell University)|Dec 2, 2017
Topic Modeling参考文献 45被引用数 65
ひとこと要約

提案ベースの後処理を用いず、画像ピクセルから直接、可変長の意味的インスタンスマスクとクラスラベルのシーケンスを生成するエンドツーエンドのリカレントモデルを導入する。

ABSTRACT

We present a recurrent model for semantic instance segmentation that sequentially generates binary masks and their associated class probabilities for every object in an image. Our proposed system is trainable end-to-end from an input image to a sequence of labeled masks and, compared to methods relying on object proposals, does not require post-processing steps on its output. We study the suitability of our recurrent model on three different instance segmentation benchmarks, namely Pascal VOC 2012, CVPPP Plant Leaf Segmentation and Cityscapes. Further, we analyze the object sorting patterns generated by our model and observe that it learns to follow a consistent pattern, which correlates with the activations learned in the encoder part of our network. Source code and models are available at https://imatge-upc.github.io/rsis/

研究の動機と目的

  • オブジェクト提案や後処理を用いずに、意味的インスタンスセグメンテーションを動機づけて解決する。
  • 画像内のすべてのオブジェクトに対してマスクとクラスラベルのシーケンスを出力する、エンドツーエンドのリカレントアーキテクチャを開発する。
  • オブジェクト数が異なる画像を扱うために、可変長出力を可能にする。
  • モデルの学習されたオブジェクト発見パターンとソーティング挙動を分析する。
  • 一般化能力とスケーラビリティを評価するために、多様なデータセットでアプローチを評価する。

提案手法

  • ImageNet で事前学習済みの ResNet-101 エンコーダを用いて、入力画像から多段階の特徴を抽出する。
  • 階層的な ConvLSTM ベースのデコーダを用い、スキップ接続を介してエンコーダ特徴をアップサンプルおよび統合して、各時間ステップで1つのオブジェクトマスクを生成する。
  • 各ステップで2値マスク、境界ボックス、クラス確率分布、およびオブジェクト性スコアを予測する;シーケンス長は停止信号によって決定される。
  • セグメンテーション(sIoU)、境界ボックス回帰、分類(クロスエントロピー)、および停止(バイナリクロスエントロピー)項を組み合わせたマルチタスク損失で訓練する;長いシーケンスにはカリキュラム学習を用いる。
  • 予測マスクを ground-truth マスクと Hungarian アルゴリズムを用いて sIoU をコストとすることで一致させ、固定出力サイズを必要とせずエンドツーエンド学習を可能にする。
  • 予測順序を事前定義されたソーティング戦略とエンコーダの活性化と相関させることで、オブジェクトのソーティングパターンの分析を含める。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドのリカレントモデルは、オブジェクト提案や後処理に頼らずに正確に意味的インスタンスセグメンテーションを実行できるか。
  • RQ2リカレントデコーダはどのようにして複数のインスタンスを連続的に発見・セグメンテーションするのか、そしてどのようなオブジェクトの順序パターンが現れるのか。
  • RQ3画像ごとのオブジェクト数が異なるデータセット(Pascal VOC、CVPPP、Cityscapes)でモデルはどのように性能を発揮するか。

主な発見

  • 本モデルは3つのベンチマークで競争力のある結果を達成し、いくつかの逐次的方法を上回り、より高い IoU 阈値では非逐次の最先端手法とは異なる。
  • 結合されたスキップ接続を持つより深い ResNet-101 エンコーダは、軽量バックボーンと比較して Pascal VOC の person で AP50 および AP50 を改善する。
  • デコーダはより深い ConvLSTM スタックとエンコーダ側のスキップ接続の恩恵を受ける;それらを除去すると性能が低下し、多スケールで再帰的デコーディングの重要性を強調する。
  • 予測は一貫性があり、データセット依存のソーティングパターンを示す(例:Pascal VOC では右から左へ、Cityscapes では左から右へ)し、エンコーダの活性化と相関して、学習済みのスキャンパスを示唆している。
  • 後半の時間ステップでマスク品質が低下するため、長いシーケンス全体で情報を保持する際のボトルネックがあり、小さなオブジェクトや高解像度入力での改善余地を示唆している。
  • Cityscapes では、方法は逐次的方法と競合するが、いくつかのカテゴリと IoU 閾値では非逐次の最先端には及ばない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。