Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning

Weifeng Ge, Sibei Yang|arXiv (Cornell University)|Feb 26, 2018
Advanced Neural Network Applications被引用数 27
ひとこと要約

本論文は、複数の弱い教師信号ソースから得られるマルチエビデンスのオブジェクトインスタンスおよびピクセルレベルの予測を統合・フィルタリングすることで、マルチラベル分類、オブジェクト検出、セマンティックセグメンテーションの性能を向上させる弱教師付きカリキュラム学習パイプラインを提案する。メトリクス学習、密度ベースクラスタリング、アテンションマップ統合を組み合わせることで、MS-COCO、PASCAL VOC 2007、PASCAL VOC 2012 で最先端の性能を達成し、VOC 2012 で 69.4% の CorLoc、MS-COCO で 72.8% の F1-C を達成した。

ABSTRACT

Supervised object detection and semantic segmentation require object or even pixel level annotations. When there exist image level labels only, it is challenging for weakly supervised algorithms to achieve accurate predictions. The accuracy achieved by top weakly supervised algorithms is still significantly lower than their fully supervised counterparts. In this paper, we propose a novel weakly supervised curriculum learning pipeline for multi-label object recognition, detection and semantic segmentation. In this pipeline, we first obtain intermediate object localization and pixel labeling results for the training images, and then use such results to train task-specific deep networks in a fully supervised manner. The entire process consists of four stages, including object localization in the training images, filtering and fusing object instances, pixel labeling for the training images, and task-specific network training. To obtain clean object instances in the training images, we propose a novel algorithm for filtering, fusing and classifying object instances collected from multiple solution mechanisms. In this algorithm, we incorporate both metric learning and density-based clustering to filter detected object instances. Experiments show that our weakly supervised pipeline achieves state-of-the-art results in multi-label image classification as well as weakly supervised object detection and very competitive results in weakly supervised semantic segmentation on MS-COCO, PASCAL VOC 2007 and PASCAL VOC 2012.

研究の動機と目的

  • オブジェクト検出およびセマンティックセグメンテーションにおける弱教師付きモデルと完全教師付きモデルの性能差を解消すること。
  • 不完全な画像レベルの教師信号による精度と再現率の制限を克服すること。
  • 多様な弱教師付きアルゴリズムの補完的出力を活用して、モデルのロバスト性と精度を向上させること。
  • 画像、オブジェクト、ピクセルの複数レベルの教師信号を統合する統一されたカリキュラム学習パイプラインを構築し、エンドツーエンドの学習を可能とすること。
  • 画像レベルラベルのみを用いて、マルチラベル分類、弱教師付きオブジェクト検出、および競争力のあるセマンティックセグメンテーションで最先端の結果を達成すること。

提案手法

  • ボトムアップおよびトップダウンの弱教師付き検出アルゴリズムを用いて、オブジェクトロケーション結果を収集する。
  • メトリクス学習および密度ベースクラスタリングを適用して、検出されたオブジェクトインスタンスをフィルタリング・統合し、ノイズや外れ値を低減する。
  • フィルタリングされたインスタンス上で単一ラベル分類器を学習させ、オブジェクトプロポーザルに最終的なラベルを割り当てる。
  • 画像レベルのアテンションマップ、オブジェクトレベルのアテンションマップ、検出ヒートマップを統合して、クリアなクラス別ピクセル単位の確率マップを生成する。
  • 統合されたピクセルマップ上で完全畳み込みネットワークを学習させ、各訓練画像の最終的なピクセル単位のラベルマップを生成する。
  • 生成されたオブジェクトインスタンスおよびピクセルマップを教師信号として用い、マルチタスク学習により検出、セグメンテーション、マルチラベル分類のためのタスク固有ネットワークを訓練する。

実験結果

リサーチクエスチョン

  • RQ1多様な弱教師付きアルゴリズムからのマルチエビデンス統合は、単一手法と比較して検出およびセグメンテーション性能を向上させるか?
  • RQ2メトリクス学習と密度ベースクラスタリングの組み合わせは、弱教師付きからのノイズの多いオブジェクトインスタンスを効果的にフィルタリングできるか?
  • RQ3画像レベル、オブジェクトレベル、ピクセルレベルのアテンションマップを統合することで、ピクセル単位のラベリング精度はどの程度向上するか?
  • RQ4複数レベルの中間教師信号を活用するカリキュラム学習パイプラインは、完全教師付きモデルに近い性能を達成できるか?
  • RQ5各コンponent(例:インスタンスフィルタリング、ピクセルマップ統合)の最終的性能への寄与度はどの程度か?

主な発見

  • 提案されたパイプラインは、PASCAL VOC 2012 の検証セットで 69.4% の CorLoc を達成し、前回の最良結果より 3.8% の向上を示した。
  • MS-COCO では 72.8% の F1-C を達成し、ベースラインの ResNet-101 や最先端の手法を上回った。
  • アブレーションスタディの結果、オブジェクトインスタンス処理を除外すると mAP が 3.1% 減少し、その重要性が示された。
  • クラスタリングおよび外れ値検出ステップを除外すると mAP が 2.7% 減少し、ノイズの多いインスタンスのフィルタリングの重要性が確認された。
  • 信頼度にかかわらずすべてのピクセルにラベルを割り当てる場合、mAP は 47.5% に低下し、不確実性を考慮したラベリングの利点が示された。
  • 2ブランチのマルチタスクネットワーク(分類+セグメンテーション)は、MS-COCO においてすべての最先端手法の中で最高の F1-C、F1-O、F1-C/top3 スコアを達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。