[論文レビュー] Weakly- and Semi-Supervised Object Detection with Expectation-Maximization Algorithm
本稿では、深層畳み込みニューラルネットワーク(CNN)を用いた弱教師ありおよび半教師ありオブジェクト検出のための期待値最大化(EM)フレームワークを提案する。インスタンスレベルのラベルを欠損データとして扱い、繰り返しオブジェクトの局所化と検出性能を向上させる。弱教師あり検出においてPASCAL VOC 2007で46.1% mAP(VGGを用いて)の最先端性能を達成し、インスタンスレベルラベルを40%のみ使用する半教師あり設定でも、完全に教師ありのFast R-CNN性能にほぼ並ぶ結果を得た。
Object detection when provided image-level labels instead of instance-level labels (i.e., bounding boxes) during training is an important problem in computer vision, since large scale image datasets with instance-level labels are extremely costly to obtain. In this paper, we address this challenging problem by developing an Expectation-Maximization (EM) based object detection method using deep convolutional neural networks (CNNs). Our method is applicable to both the weakly-supervised and semi-supervised settings. Extensive experiments on PASCAL VOC 2007 benchmark show that (1) in the weakly supervised setting, our method provides significant detection performance improvement over current state-of-the-art methods, (2) having access to a small number of strongly (instance-level) annotated images, our method can almost match the performace of the fully supervised Fast RCNN. We share our source code at https://github.com/ZiangYan/EM-WSD.
研究の動機と目的
- バウンディングボックスのアノテーションよりも安価に入手可能な画像レベルラベルのみを用いて、正確なオブジェクト検出器を訓練する課題に取り組む。
- 提案手法が独立した提案領域を仮定し、ハードディシジョンを用いる従来の弱教師あり検出手法の限界を克服し、局所化性能を最適化する。
- 補助的な強くアノテートされたカテゴリを必要としない半教師あり検出を可能にし、実世界の応用においてより実用的であるようにする。
- EMを用いてオブジェクト局所化の不確実性を確率的ラベル推定によりモデル化することで、学習の安定性と性能を向上させる。
- 同一の最適化手順を用いて弱教師ありおよび半教師あり設定の両方に適用可能な統一されたフレームワークを開発する。
提案手法
- インスタンスレベルラベルを欠損データとして扱い、EMアルゴリズムを適用して、オブジェクト提案領域における確率分布を繰り返し推定する。
- Eステップでは、現在のCNN重みと画像レベルラベルを用いて、すべての可能なオブジェクト位置におけるソフト確率分布を計算する。
- Mステップでは、Eステップで得られた推定確率を用いてCNNパラメータを更新し、観測された画像レベルラベルの期待尤度を最適化する。
- 非凸最適化のランドスケープにおいて収束を改善し、悪い局所最適解を避けるために、WSDDNを初期化に用いる。
- 効率性と局所化精度の向上を目的として、1画像あたりk個の最良提案(k-best)を用いるEMの変種、K-EMを適用する。
- 画像レベルラベルとインスタンスレベルラベルを統合した統一された学習目的関数を構築し、半教師あり設定へのスムーズな適応を可能にする。
実験結果
リサーチクエスチョン
- RQ1ハードディシジョンではなく、オブジェクト局所化における不確実性をモデル化することで、EMベースのフレームワークが弱教師ありオブジェクト検出を改善できるか?
- RQ2画像レベルラベルのみで学習した場合、EMベースの検出性能は最先端手法と比較してどのように異なるか?
- RQ3半教師あり設定において、少数のインスタンスレベルラベルを用いることで、弱教師ありと完全に教師ありの検出器の性能差をどの程度縮小できるか?
- RQ4本手法は、AlexNetやVGGといった異なるバックボーンネットワークに対しても一般化可能か?
- RQ5補助的なアノテート済みカテゴリを必要とせず、弱教師ありおよび半教師あり両設定に一様に適用可能なEMフレームワークか?
主な発見
- 提案手法は、弱教師あり設定において、AlexNetを用いて39.4% mAP、VGGを用いて46.1% mAPを達成し、現在の最先端手法を上回った。
- インスタンスレベルラベルを40%、画像レベルラベルを60%使用した場合、55.7% mAPを達成し、完全に教師ありのFast R-CNN(57.1% mAP)と比較してわずか1.4%の差にとどまった。
- EMイテレーションを経るごとに局所化品質が向上し、弱教師ありアノテート画像における応答マップの精錬が観察された。
- 従来のMI-SVMベース手法のハードディシジョンの限界を避けるために、不確実性をソフト確率割り当てで効果的に処理した。
- 異なるネットワークアーキテクチャにわたって良好に一般化され、弱教師ありおよび半教師あり両設定において、ベースライン手法を一貫して上回る性能向上を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。