QUICK REVIEW

[論文レビュー] C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection

Fang Wan, Chang Liu|arXiv (Cornell University)|Apr 11, 2019

Advanced Image and Video Retrieval Techniques参考文献 40被引用数 30

ひとこと要約

C-MILは、弱教師付きオブジェクト検出（WSOD）における非凸性の問題を軽減するため、複数インスタンス学習（MIL）内での継続最適化法を提案する。空間的・クラス関連のインスタンスサブセット上で滑らかな損失関数を用いることで、完全なオブジェクトの範囲を示す安定的意味的極値領域（SSERs）の発見を促進する。VGG16を用いたPASCAL VOC 2007では63.5%のmAPを達成し、SOTAを大幅に上回り、最大6.7%の差をつける。

ABSTRACT

Weakly supervised object detection (WSOD) is a challenging task when provided with image category supervision but required to simultaneously learn object locations and object detectors. Many WSOD approaches adopt multiple instance learning (MIL) and have non-convex loss functions which are prone to get stuck into local minima (falsely localize object parts) while missing full object extent during training. In this paper, we introduce a continuation optimization method into MIL and thereby creating continuation multiple instance learning (C-MIL), with the intention of alleviating the non-convexity problem in a systematic way. We partition instances into spatially related and class related subsets, and approximate the original loss function with a series of smoothed loss functions defined within the subsets. Optimizing smoothed loss functions prevents the training procedure falling prematurely into local minima and facilitates the discovery of Stable Semantic Extremal Regions (SSERs) which indicate full object extent. On the PASCAL VOC 2007 and 2012 datasets, C-MIL improves the state-of-the-art of weakly supervised object detection and weakly supervised object localization with large margins.

研究の動機と目的

MILベースの弱教師付きオブジェクト検出（WSOD）における非凸損失関数の局所的最小値問題に取り組み、完全なオブジェクトの範囲ではなく部分の誤検出を引き起こす問題を解消する。
空間正則化や段階的精錬に依存する従来手法の限界を克服し、根本的な非凸性問題を体系的かつ一貫して解消する。
継続法を用いて凸から非凸損失関数へ段階的に移行する原理的最適化戦略を開発し、完全なオブジェクトの範囲への安定的収束を可能にする。
エンドツーエンド学習を可能にし、特徴的なインスタンスサブセットを発見するとともに、特徴のないものを抑制することで、検出および局所化性能を向上させる。

提案手法

継続最適化をMILに導入し、継続パラメータで制御されるサブセットの滑らかな損失関数の系列を定義する。このパラメータはサブセットの細分化度を制御する。
パラメトリック戦略に基づき、空間的に重複するおよびクラスが類似したサブセットにインスタンスを分割する。最小のパラメータでは1つのサブセット（すべてのインスタンス）となり、最大のパラメータでは個々のインスタンスとなる。
継続パラメータを完全なサブセットから最小のサブセットへ段階的に減少させ、元の非凸損失を、最適化が容易な凸近似の系列に変換する。
深層ニューラルネットワークフレームワーク内で滑らかな損失関数をエンドツーエンドで最適化し、モデルが最初にオブジェクトの部分を学習し、次に安定的意味的極値領域（SSERs）を介して完全なオブジェクトの範囲へと精錬する。
各サブセットが重複する領域および類似スコアを持つ領域を集約することで、トレーニング損失を計算し、一貫性のあるオブジェクト局所化を促進する。
深層特徴を用いてインスタンス選択とサブセット形成をガイドし、最終的な検出器が完全なオブジェクトに対応する領域を活性化するのを保証する。

実験結果

リサーチクエスチョン

RQ1継続最適化は、MILベースの弱教師付きオブジェクト検出における非凸性問題を効果的に軽減し、局所的最小値への過早収束を防げるか？
RQ2空間的およびクラス関連のサブセットにインスタンスを分割することで、標準的なMILと比較して完全なオブジェクトの範囲の発見が向上するか？
RQ3凸から非凸へ段階的に移行する滑らかな損失関数の系列は、WSODにおける一般化性能および局所化性能の向上に寄与するか？
RQ4提案手法C-MILは、PASCAL VOC 2007および2012のような標準ベンチマークにおいて、SOTA手法と比較してmAPおよび局所化精度をどの程度向上させるか？

主な発見

C-MILは、VGG16バックボーンを用いてPASCAL VOC 2007で63.5%のmAPを達成し、前回SOTA手法（MELM）を3.2%上回った。
VGG16を用いたPASCAL VOC 2012では、46.7%のmAPを達成し、最高の先行手法（MELM）を4.3%、WeakRPNを5.9%上回った。
オブジェクト局所化において、C-MILはVOC 2007で65.0%のCorLoc、VOC 2012で67.4%を達成し、TS 2 Cをそれぞれ4.0%および2.5%上回った。
C-MILが生成した疑似バウンディングボックスを用いてFast-RCNN検出器を再トレーニングしたところ、VOC 2007でmAPが53.1%に達し、前回SOTAを2.7%から6.1%まで上回った。
特に挑戦的なカテゴリでは顕著な性能向上を示した：VOC 2007における「bird」で+5.8%、「train」で+4.5%、「cat」で+3.5%向上した。
継続最適化の導入により、粗いから細かい段階へのインスタンスサブセットの精錬を通じて、完全なオブジェクトの範囲に対応する安定的意味的極値領域（SSERs）をモデルが発見できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。