QUICK REVIEW

[論文レビュー] Deep Interactive Object Selection

Ning Xu, Brian Price|arXiv (Cornell University)|Mar 13, 2016

Advanced Image and Video Retrieval Techniques参考文献 19被引用数 42

ひとこと要約

本稿では、正例クリックと負例クリックをユークリッド距離マップに変換し、RGB画像と統合して完全畳み込みネットワーク（FCN-8s）を学習する深層学習ベースのインタラクティブオブジェクト選択手法を提案する。このモデルは、オブジェクト認識の理解を向上させるために深層特徴抽出を活用し、FCN出力をグラフカット最適化と組み合わせて境界の微調整を実現し、見たことのないオブジェクトカテゴリに対しても最小限のユーザー入力で最先端の性能を達成する。

ABSTRACT

Interactive object selection is a very important research problem and has many applications. Previous algorithms require substantial user interactions to estimate the foreground and background distributions. In this paper, we present a novel deep learning based algorithm which has a much better understanding of objectness and thus can reduce user interactions to just a few clicks. Our algorithm transforms user provided positive and negative clicks into two Euclidean distance maps which are then concatenated with the RGB channels of images to compose (image, user interactions) pairs. We generate many of such pairs by combining several random sampling strategies to model user click patterns and use them to fine tune deep Fully Convolutional Networks (FCNs). Finally the output probability maps of our FCN 8s model is integrated with graph cut optimization to refine the boundary segments. Our model is trained on the PASCAL segmentation dataset and evaluated on other datasets with different object classes. Experimental results on both seen and unseen objects clearly demonstrate that our algorithm has a good generalization ability and is superior to all existing interactive object selection approaches.

研究の動機と目的

画像内の正確なオブジェクト選択に必要なユーザーの操作回数を削減すること。
手作業で設計された低レベル特徴ではなく、深層特徴抽出を活用することで、未学習のオブジェクトカテゴリへの一般化性能を向上させること。
ユーザーが提供するクリックを、インタラクティブセグメンテーションのための深層学習フレームワークに効果的に統合すること。
高スペックGPU上でリアルタイムの性能を維持しながら、高いセグメンテーション精度を達成すること。

提案手法

ユーザーが提供する正例および負例のクリックは、それぞれ前景と背景の手がかりを表す別々のユークリッド距離マップに変換される。
これらの距離マップは、RGB画像のチャンネルと連結され、(画像, ユーザーの操作) の学習ペアを形成する。
多様なユーザーのクリックパターンをシミュレートするために、ランダムサンプリング戦略を用いて多数の合成学習ペアが生成される。
事前学習済みのFCN-8sモデルが、これらの合成された (画像, 操作) ペア上で微調整され、オブジェクト固有のセグメンテーションを学習する。
FCN-8sの出力確率マップは、境界の局所化を改善するため、グラフカット最適化を用いて微調整される。
フレームワークはPASCAL VOCで学習され、MS COCOおよびFashionistaデータセットで評価され、ゼロショット一般化性能が検証される。

実験結果

リサーチクエスチョン

RQ1合成された (画像, クリック) ペアで学習した深層学習モデルは、最小限のユーザー操作で未学習のオブジェクトカテゴリに一般化可能か？
RQ2ユーザーのクリックを距離マップとして組み込むことで、従来の低レベル特徴ベースの手法と比較して、セグメンテーション精度がどのように向上するか？
RQ3深層学習ベースのインタラクティブセグメンテーションシステムは、高精度を維持したまま、必要なクリック回数をどの程度削減できるか？
RQ4FCNの出力とグラフカット最適化を組み合わせることで、FCN単体よりも境界の正確性が向上するか？

主な発見

提案手法は、MS COCOの未学習カテゴリにおいて、たった1つの正例クリックでのみ、平均交差率（mIoU）48.35%を達成し、FCNおよびCRF-RNNを著しく上回った。
PASCAL VOCデータセットでは、未学習カテゴリで42.94%のmIoUを達成し、優れたゼロショット一般化能力を示した。
1〜3回のクリックでのみ、高品質なセグメンテーション結果が得られ、多くの場合、多数のユーザー入力が必要な従来手法の結果と同等またはそれを上回った。
グラフカットによる微調整は境界の局所化を著しく改善しており、視覚的比較で、微調整後の出力がより鋭く正確なオブジェクトの輪郭を示していることが確認された。
高スペックGPU上でリアルタイムの性能を達成しており、インタラクティブアプリケーションへの実用性が裏付けられた。
モデルが全オブジェクトのみで学習されているにもかかわらず、衣類の一部（例：パンツ、シャツ）のセグメンテーションに成功しており、ユーザーの意図およびオブジェクトの意味論的理解が強いことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。