QUICK REVIEW

[論文レビュー] Iteratively Trained Interactive Segmentation

Sabarinath Mahadevan, Paul Voigtlaender|arXiv (Cornell University)|May 11, 2018

Advanced Neural Network Applications参考文献 26被引用数 26

ひとこと要約

本論文では、ユーザーの修正行動をトレーニング中にシミュレートする反復的トレーニング戦略を用いる、クリックベースの画像セグメンテーションのための新規ディープラーニングフレームワークである反復的トレーニングインタラクティブセグメンテーション（ITIS）を提案する。ネットワークの予測誤差に基づいてクリックを生成することで、最先端の手法を上回る精度を達成し、セグメンテーションの精度を向上させ、特にセグメンテーションの初期段階からのインタラクティブセグメンテーションおよび自動生成マスクの最適化の両方で優れた性能を発揮する。

ABSTRACT

Deep learning requires large amounts of training data to be effective. For the task of object segmentation, manually labeling data is very expensive, and hence interactive methods are needed. Following recent approaches, we develop an interactive object segmentation system which uses user input in the form of clicks as the input to a convolutional network. While previous methods use heuristic click sampling strategies to emulate user clicks during training, we propose a new iterative training strategy. During training, we iteratively add clicks based on the errors of the currently predicted segmentation. We show that our iterative training strategy together with additional improvements to the network architecture results in improved results over the state-of-the-art.

研究の動機と目的

画像セグメンテーションのためのディープラーニングモデルをトレーニングする際の高いアノテーションコストを低減するため、インタラクティブでクリックベースのラベリングを可能にする。
トレーニング段階と推論段階の間のドメインギャップを埋めるために、両段階でクリックサンプリング戦略を一致させる。
ヒューリスティックなサンプリングではなく、誤差駆動の反復的クリック生成を用いてネットワークをトレーニングすることで、セグメンテーション性能を向上させる。
テスト時の異なるクリックサンプリング戦略に対して、提案手法のロバスト性を評価する。
ネットワーク性能の向上に寄与する異なる入力表現（クリック、マスク）を体系的に比較する。

提案手法

本手法は、画像とユーザーのクリックを入力として受け取り、セグメンテーションマスクを予測するDeepLabV3+バックボーンネットワークを用いる。
トレーニング中は、モデルの予測誤差に基づいてクリックを段階的に追加し、ユーザーがミスを一つずつ修正するのをシミュレートする。
クリックはユークリッド距離マップとして表現され、入力画像と連結されてネットワークのガイドラインとして機能する。
マスクチャネルを用いて微調整タスクのための交差エントロピー損失を用いて、エンドツーエンドでネットワークをトレーニングする。
ビデオオブジェクトセグメンテーションモデルから得られた事前生成マスクの修正時に、オプションのマスク入力チャネルが使用される。
反復的トレーニング手順はトレーニング時と推論時の両方で適用され、トレーニング時とテスト時の動作の一貫性が保証される。

実験結果

リサーチクエスチョン

RQ1ユーザーの誤り修正を模倣する反復的トレーニング戦略は、インタラクティブセグメンテーションの性能向上に寄与するか？
RQ2トレーニング中に誤差駆動のクリック生成を用いることで、ヒューリスティックなクリックサンプリングに比べて一般化性能が向上するか？
RQ3本手法は、セグメンテーションの初期段階からのインタラクティブセグメンテーションおよびマスクの最適化の両方において、最先端のアプローチを上回るか？
RQ4性能向上は評価基準へのオーバーフィッティングによるものか、それともクリックサンプリング戦略の変化に対してロバストか？
RQ5異なる入力表現（例：距離マップ、マスクチャネル）がセグメンテーション精度に与える影響は何か？

主な発見

反復的トレーニング戦略によりmIoUが顕著に向上し、PASCAL VOCでは20クリック時点で6.5%のmIoU向上を達成し、先行手法を上回る。
OSVOSビデオオブジェクトセグメンテーションベンチマークでは、ITIS-VOSが10クリック時点で82.8%のmIoUを達成し、以前の最先端手法（82.2%）を上回った。
KITTIカーのセグメンテーションにおいても優れた性能を発揮し、Polygon-RNNですら、正解ボクセルボックスを用い、より正確なクリックを必要としているにもかかわらず、ITISがそれを上回った。
テスト時のクリックサンプリング戦略の変化に対しても性能向上がロバストであるため、評価基準へのオーバーフィッティングによるものではないことが示された。
アブレーションスタディにより、反復的トレーニングが最大の向上をもたらし、PASCAL VOCでは非反復ベースラインに比べて3.8%のmIoU向上が確認された。
マスク入力チャネルの導入により、特にクリック数が少ない場合（例：4クリックで67.0%のmIoU）に、微調整タスクの性能が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。