QUICK REVIEW

[論文レビュー] Applications of Online Deep Learning for Crisis Response Using Social Media Information

Dat Tien Nguyen, Shafiq Joty|arXiv (Cornell University)|Oct 4, 2016

Public Relations and Crisis Communication参考文献 25被引用数 70

ひとこと要約

本論文は、危機関連のツイートを情報的か非情報的か、およびトピック別に分類するためのオンラインディープラーニングフレームワークを提案している。事前学習済みの単語埋め込みとオンライン確率的勾配降下法を活用することで、モデルは新規データに段階的に適応し、最小限の手動特徴工学でリアルタイムの災害対応状況において高い正確性を達成する。

ABSTRACT

During natural or man-made disasters, humanitarian response organizations look for useful information to support their decision-making processes. Social media platforms such as Twitter have been considered as a vital source of useful information for disaster response and management. Despite advances in natural language processing techniques, processing short and informal Twitter messages is a challenging task. In this paper, we propose to use Deep Neural Network (DNN) to address two types of information needs of response organizations: 1) identifying informative tweets and 2) classifying them into topical classes. DNNs use distributed representation of words and learn the representation as well as higher level features automatically for the classification task. We propose a new online algorithm based on stochastic gradient descent to train DNNs in an online fashion during disaster situations. We test our models using a crisis-related real-world Twitter dataset.

研究の動機と目的

災害発生時におけるノイズが多く、関連性のないソーシャルメディアコンテンツをフィルタリングし、情報的である危機関連ツイートのみを抽出する課題に対処する。
負傷、インfra構造損傷、資材ニーズなど、事前に定義された人道的トピックに情報的ツイートをリアルタイムで分類可能にする。
再訓練を再び開始することなく、新規の危機データに適応できるオンライン学習フレームワークを開発する。これは、時間的に重要な災害対応に適している。
短い、非公式な、文脈的に曖昧な危機関連ツイートを処理する際、従来の分類器（例：SVM、ナイーブベイズ）よりもディープニューラルネットワークの優位性を示す。
再現可能性と今後の危機コンピューティングおよび人道的応用のためのNLP分野における研究を支援するため、オープンソースコードを提供する。

提案手法

生のツイートテキストから分散単語表現と高レベル特徴を自動的に学習するため、畳み込みニューラルネットワーク（CNN）アーキテクチャを採用する。
過去の災害から一般化できるように、事前学習済みの単語埋め込み（例：word2vec や GloVe）を用いて単語表現を初期化する。
新しいラベル付きツイートバッチが到着する度に、モデルパラメータを段階的に更新する、新しいオンライン学習アルゴリズム（確率的勾配降下法に基づく）を実装する。
ストリーミング形式でモデルを学習する：ベースモデルは歴史的危機データで事前学習され、リアルタイムで小規模な、イベント固有のラベル付きバッチでファインチューニングされる。
ラベル付きツイートのみを用いて、二値分類（情報的 vs. 非情報的）および多クラス分類（トピック別）の両方のタスクに対してエンドツーエンド学習を実施する。
動的な災害状況下での計算効率とモデル正確性のバランスを取るために、ミニバッチ更新を最適化する。

実験結果

リサーチクエスチョン

RQ1オンラインディープラーニングは、短く非公式な危機関連ツイートをリアルタイムで情報的・非情報的カテゴリに分類するのに効果的か？
RQ2災害発生時における二値分類および多クラス分類タスクにおいて、オンラインで学習されたCNNの性能は、従来の分類器（例：SVM、ロジスティック回帰）と比べてどうか？
RQ3過去の危機データで事前学習したDNNモデルは、ラベル付きデータが少ない新規の未観測災害イベントに、どの程度一般化できるか？
RQ4イベント固有のデータを小規模で段階的に提供するオンラインファインチューニングは、静的モデルと比較して分類正確性を向上させるか？
RQ5エンドツーエンドのディープラーニングは、危機関連ツイート分類タスクにおいて、手動特徴工学の必要性を排除できるか？

主な発見

提案されたオンラインCNNモデルは、二値分類および多クラス分類タスクの両方で高い正確性を達成しており、より多くのイベント固有のラベル付きデータが組み込まれるにつれて性能が向上する。
過去の危機データで事前学習することで、ラベル付きデータが少ない災害発生初期段階でも、モデルが効果的に一般化できる。
オンライン学習アプローチにより、再訓練から始めることに比べて学習オーバーヘッドが顕著に削減され、時間的に重要な災害対応に適している。
SVM やロジスティック回帰などの従来の分類器よりも、ノイズ、短さ、非公式な言語表現に強い。
分散単語表現と自動特徴学習の活用により、手動特徴工学への依存が低減され、分類パイプラインが簡素化される。
オンライン学習フレームワークのソースコードは公開されており、今後の危機コンピューティング研究におけるコミュニティの再利用と拡張を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。