QUICK REVIEW

[論文レビュー] Semantic Instance Segmentation with a Discriminative Loss Function

Bert De Brabandere, Davy Neven|arXiv (Cornell University)|Aug 8, 2017

Advanced Neural Network Applications参考文献 38被引用数 442

ひとこと要約

ピクセルレベルの識別的損失を用いてピクセルを埋め込みにマッピングし、同一インスタンスのピクセルをクラスターにまとまり、異なるインスタンスを分離することで、提案や再帰なしのインスタンスセグメンテーションの単純な後処理を可能にする。

ABSTRACT

Semantic instance segmentation remains a challenging task. In this work we propose to tackle the problem with a discriminative loss function, operating at the pixel level, that encourages a convolutional network to produce a representation of the image that can easily be clustered into instances with a simple post-processing step. The loss function encourages the network to map each pixel to a point in feature space so that pixels belonging to the same instance lie close together while different instances are separated by a wide margin. Our approach of combining an off-the-shelf network with a principled loss function inspired by a metric learning objective is conceptually simple and distinct from recent efforts in instance segmentation. In contrast to previous works, our method does not rely on object proposals or recurrent mechanisms. A key contribution of our work is to demonstrate that such a simple setup without bells and whistles is effective and can perform on par with more complex methods. Moreover, we show that it does not suffer from some of the limitations of the popular detect-and-segment approaches. We achieve competitive performance on the Cityscapes and CVPPP leaf segmentation benchmarks.

研究の動機と目的

物体提案や再帰モデルを用いずに、セマンティックインスタンスセグメンテーションの課題に動機づけ、対処する。
インスタンスごとにピクセル埋め込みをクラスタリングする識別的な指標学習風の損失を導入する。
標準的なセグメンテーションバックボーンを新しい損失と組み合わせて再利用し、競争力のある性能を示す。
CityscapesのインスタンスレベルラベリングとCVPPPの葉のセグメンテーションベンチマークで有効性を示す。

提案手法

セグメンテーションネットワークを介して各ピクセルをn次元埋め込みへマッピングする。
3つの項からなる識別的損失を使用する：クラスター内分散（埋め込みをクラスター中心に引き寄せる）、クラスター間距離（クラスター中心を離す）、および正則化項。
分散項と距離項の両方にマージン損失であるヒンジ型を採用して、局所的な多様体表現を可能にする。
推論時には、クラスタ中心の周りで閾値処理するか、mean-shiftに触発された改良で離散的なインスタンスを得るよう埋め込みをクラスタリングする。
オフ・ザ・シェルフなアーキテクチャ（ResNet-38）で訓練し、損失と小さな後処理手順だけを適応する。
提案ベースおよび再帰的手法と比較して、単純さと有効性を強調する。

実験結果

リサーチクエスチョン

RQ1ピクセルレベルの識別的損失は、提案や再帰アーキテクチャなしで正確なインスタンスセグメンテーションを実現できるか？
RQ2学習済み埋め込みのクラスタリングベースの後処理は、CityscapesやCVPPPのような難しいベンチマークでどの程度機能するか？
RQ3セマンティックセグメンテーションの品質とクラスタリング戦略が全体のインスタンスセグメンテーション性能に与える影響は？
RQ4提案手法は精度と複雑さの面で最先端手法とどう比較されるか？

主な発見

手法	AP	AP0.5	AP100m	AP50m
私たちの手法	17.5	35.9	27.8	31.0

識別的損失はCityscapesとCVPPPで競争力のあるインスタンスセグメンテーション性能をもたらし、最先端の非提案手法と一致する。
CVPPP では、SBDスコア84.2を達成し、最先端84.9と比較可能ながらより簡潔なパイプラインを使用。
Cityscapes では、AP指標が競争力を持ち、オクルージョンや複雑なシーンに対して提案なしで堅牢性を示す。
性能はセマンティックセグメンテーションの品質とクラスタリング戦略の影響を強く受け、アブレーションではグラウンドトゥルース成分が実質的な向上をもたらす。
この手法は重いCRFや再帰デコーダよりも、閾値処理/平均シフトといったシンプルな後処理手法の恩恵を受け、推論を効率化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。