QUICK REVIEW

[論文レビュー] Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Xialei Liu, Joost van de Weijer|arXiv (Cornell University)|Mar 8, 2018

Video Surveillance and Tracking Methods参考文献 34被引用数 23

ひとこと要約

本論文は、集団の密度推定に自己教師あり学習を適用する手法を提案する。この手法は、ラベルなしの集団画像を活用し、階層的な部分画像の人数順序の不変性を活用する。具体的には、密集したシーンの部分画像は、元の画像に含まれる人数以上にはならないという性質を利用し、モデルが部分画像の人数順序を学習する。密度マップの予測と部分画像の順序付けを同時に学習するマルチタスクネットワークを訓練することで、UCF_CC_50およびShanghaiTechデータセットで最先端の性能を達成し、ラベル付きデータが限られた状況下でも一般化性能が向上し、誤差が著しく低減される。

ABSTRACT

We propose a novel crowd counting approach that leverages abundantly available unlabeled crowd imagery in a learning-to-rank framework. To induce a ranking of cropped images , we use the observation that any sub-image of a crowded scene image is guaranteed to contain the same number or fewer persons than the super-image. This allows us to address the problem of limited size of existing datasets for crowd counting. We collect two crowd scene datasets from Google using keyword searches and query-by-example image retrieval, respectively. We demonstrate how to efficiently learn from these unlabeled datasets by incorporating learning-to-rank in a multi-task network which simultaneously ranks images and estimates crowd density maps. Experiments on two of the most challenging crowd counting datasets show that our approach obtains state-of-the-art results.

研究の動機と目的

ラベル付きの集団数え上げデータセットが小さく、収集にコストがかかるという問題を、豊富なラベルなし集団画像を活用することで解決すること。
Webから取得したラベルなしデータを用いた自己教師あり事前学習により、深層集団数え上げモデルの一般化性能と性能を向上させること。
密度推定と画像クロップの相対的順序付けを同時に最適化するマルチタスク学習フレームワークを構築すること。
順序付けに基づく自己教師あり学習が、従来の事前学習および微調整戦略を上回ることを示すこと。
クロスデータセット転移学習と最先端手法との比較を通じて、本手法の有効性を検証すること。

提案手法

密集したシーンの部分画像は、元の画像に含まれる人数以上にはならないという観察に基づき、クロップ画像の自然な順序付けを生成する。
Googleからキーワード検索および例検索による画像検索を用いて、2つの大規模なラベルなし集団データセットを収集する。
対照的順序付け損失を用いて、密度推定と画像クロップ順序付けを同時に実行するマルチタスク深層学習アーキテクチャを設計する。
訓練中に自己教師あり順序付け目的を適用する：ネストされたクロップ画像の集合に対して、より大きな画像に多い人数を予測するようにモデルを学習させる。
ラベル付きデータに対する教師あり損失と、ラベルなしデータに対する対照的順序付け損失の組み合わせにより、ネットワークをエンドツーエンドで訓練する。
データ拡張とマルチスケール推論を用いて、頑健性と一般化性能を向上させる。

実験結果

リサーチクエスチョン

RQ1ラベルなし集団シーンからの画像クロップの自己教師あり順序付けは、集団数え上げの性能向上に寄与するか？
RQ2マルチタスクネットワークにおいて順序付けを代理タスクとして組み込むことで、従来の事前学習や微調整よりも優れた結果が得られるか？
RQ3本手法は、あるデータセットで学習し、別のデータセットでテストする際のクロスデータセット一般化において、どの程度有効か？
RQ4本手法は、ベンチマークデータセットで既存の最先端の集団数え上げモデルを上回る性能を示すか？
RQ5順序付けに基づく自己教師あり学習は、純粋な教師あり学習に比べ、誤差を低減し、頑健性を向上させるか？

主な発見

UCF_CC_50データセットでは、キーワードベースのラベルなしデータセットを用いることで、MAEをSOTAの295.8から279.6に低減した。
ShanghaiTech Part_Aデータセットでは、MAEが73.6、MSEが112.0を達成し、以前のSOTA手法を上回った。
ShanghaiTech Part_Bでは、MAEが13.7、MSEが21.4を達成し、極めて密集したシーンでも優れた性能を示した。
順序付けと数え上げを併用するマルチタスクアプローチは、単一タスク学習を上回り、ベースラインに比べてShanghaiTech Part_BでMAEが30%改善された。
クロスデータセット転移学習（ShanghaiTech Part_A → UCF_CC_50）において、MAEを349.5から337.6に、MSEを475.7から434.3に低減し、唯一報告済みの他の手法を上回った。
本手法は良好な一般化性能を示し、図5に示すように、予測値が真値の密度マップと高い整合性を持つことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。