QUICK REVIEW

[論文レビュー] Automatic Image Filtering on Social Networks Using Deep Learning and Perceptual Hashing During Crises

Dat Tien Nguyen, Firoj Alam|arXiv (Cornell University)|Apr 9, 2017

Advanced Image and Video Retrieval Techniques参考文献 1被引用数 59

ひとこと要約

本論文は、転移学習済みCNNを関連性フィルタリングに、知覚ハッシュをデ-duplicationに用いたリアルタイムの画像フィルタリングパイプラインを提案し、危機関連の画像データの品質とアノテーション効率を向上させる。

ABSTRACT

The extensive use of social media platforms, especially during disasters, creates unique opportunities for humanitarian organizations to gain situational awareness and launch relief operations accordingly. In addition to the textual content, people post overwhelming amounts of imagery data on social networks within minutes of a disaster hit. Studies point to the importance of this online imagery content for emergency response. Despite recent advances in the computer vision field, automatic processing of the crisis-related social media imagery data remains a challenging task. It is because a majority of which consists of redundant and irrelevant content. In this paper, we present an image processing pipeline that comprises de-duplication and relevancy filtering mechanisms to collect and filter social media image content in real-time during a crisis event. Results obtained from extensive experiments on real-world crisis datasets demonstrate the significance of the proposed pipeline for optimal utilization of both human and machine computing resources.

研究の動機と目的

関連性のないコンテンツを排除して、騒がしいソーシャルメディア画像データを浄化する。
重複画像および近似重複画像を排除してデータ冗長性を削減する。
フィルタリングがアノテーション予算と機械学習の頑健性を改善することを実証する。
最新の深層学習モデルを危機データの関連性判定および被害分類タスクに適応させる。
危機発生時にソーシャルメディア画像を分析するリアルタイムパイプラインを開発する。

提案手法

ツイート収集機と画像収集機を備えた自動画像フィルタリングパイプラインを構築する。
損害評価の関連性に対し、事前学習済みVGG-16 CNNを関連/非関連の二値タスクに対して微調整することで関連性フィルタリングを行う。
知覚ハッシュ（pHash）を適用して厳密重複と近接重複画像を検出し、ローリング100kハッシュ窓を維持する。
手動検査により1,100組の画像ペアを用いてデ-duplicationのハミング距離閾値(d)を調整し、d = 10を選択する。
関連性には60/20/20の訓練/検証/テスト分割、損害分類には5分割交差検証を用いる。
評価指標として精度、適合率、再現率、F1、AUCを用いる。

実験結果

リサーチクエスチョン

RQ1関連性フィルタリングは、損害評価の情報源となる画像とそうでない画像をどれだけ効果的に区別できるか。
RQ2知覚ハッシュを用いた重複排除はデータ量と下流の損害分類モデルの品質にどのように影響するか。
RQ3危機関連画像で訓練した損害評価分類器の精度と頑健性に対する画像フィルタリングの効果は？
RQ4リアルタイムの危機状況で関連性フィルタリングと重複排除を適用することでどれだけデータが削減されるか？

主な発見

関連性フィルタはテストセットでAUC 0.98、precision 0.99、recall 0.97、F1 0.98の高い識別性能を達成。
重複排除により、深刻画像58%、軽度画像50%、なし画像30%を削除し、生データ収集全体で62%の削減を達成。
重複画像と関連性のない画像の使用は予算の無駄を増大させる。重複を除去することで約1,178のラベル付き画像、予算の約20%に相当する価値を節約した。
損害分類タスクでは、重複を除去する（S2）は信頼性を向上させ、重複漏洩による人工的なブーストを回避する。重複と関連性のない画像の両方を除去する（S4）はS2と比べてマクロF1を約2%改善。
3クラス損害分類器（severe, mild, none）は、クラス不均衡と低発生率のためmildクラスが依然として最も難しい。
危機画像分析のためのリアルタイムパイプラインとウェブアクセス可能なシステムを実証。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。