[論文レビュー] Twitter as a Lifeline: Human-annotated Twitter Corpora for NLP of Crisis-related Messages
本論文は、19 disasters (2013–2015) にわたって収集された大規模な人手注釈付きの危機関連ツイッター・コーパスを提示し、分類器(NB、SVM、RF)を構築し、OOV terms の正規化リソースとともに 52 million の危機ツイートの語彙埋め込みを公開する。
Microblogging platforms such as Twitter provide active communication channels during mass convergence and emergency events such as earthquakes, typhoons. During the sudden onset of a crisis situation, affected people post useful information on Twitter that can be used for situational awareness and other humanitarian disaster response efforts, if processed timely and effectively. Processing social media information pose multiple challenges such as parsing noisy, brief and informal messages, learning information categories from the incoming stream of messages and classifying them into different classes among others. One of the basic necessities of many of these tasks is the availability of data, in particular human-annotated data. In this paper, we present human-annotated Twitter corpora collected during 19 different crises that took place between 2013 and 2015. To demonstrate the utility of the annotations, we train machine learning classifiers. Moreover, we publish first largest word2vec word embeddings trained on 52 million crisis-related tweets. To deal with tweets language issues, we present human-annotated normalized lexical resources for different lexical variations.
研究の動機と目的
- 災害情報処理の NLP を実現するために、19 の危機(2013–2015)からの大規模な人手注釈付き Twitter コーパスを提供する。
- 実用的な危機情報のために、UN OCHA カテゴリに合わせた注釈スキームを作成する。
- 迅速な災害対応研究を支援するためのベースライン分類器と公開語埋め込みを開発する。
提案手法
- AIDR プラットフォームを介して、19 の災害と言語にまたがる危機関連ツイートを収集する。
- UN OCHA に触発されたカテゴリでツイートに注釈を付け、OOV 用語を正規化のヒントとともに分離する。
- 情報利得による1k特徴量選択を用いた前処理済みの単語単位/2語連結語を用いて、多クラス分類器(Naive Bayes、SVM、Random Forest)を訓練する。
- 危機コーパスから52-million件のツイートを用いた word2vec 埋め込み(CBOW、300次元、ネガティブサンプリング)を訓練する。
- CrowdFlower を用いて OOV 用語の正規化を特定・クラウドソーシングし、辞書からのルールベースの初期候補セットと編集距離補正を組み合わせる。
実験結果
リサーチクエスチョン
- RQ1大規模な人手注釈付き危機ツイートコーパスは、危機関連情報の監視型分類を改善できるか?
- RQ2人道的ニーズに沿った危機関連ツイッターのデータに対する効果的な注釈スキームは何か?
- RQ3複数の災害にわたるノイズの多い短文の危機メッセージに、標準的な分類器はどの程度うまく機能するか?
- RQ4災害対応における下流NLPタスクに対して、大規模な危機語埋め込みはどの程度の有用性を提供するか?
- RQ5NLP パイプラインを支援するために、危機ツイートの OOV 単語を体系的に識別・正規化するにはどうすればよいか?
主な発見
- 注釈付きデータセットは、話題カテゴリとOOV正規化用語の両方を含む約50,000件のメッセージをカバーしている。
- 3つの分類器(SVM、NB、RF)は、いくつかの災害データセットで受け入れ可能なAUCを達成し、ほとんどのクラスで≥0.80、ただし小さな“missing trapped/found”クラスは性能が低い。
- 52 million の危機ツイートで訓練された word2vec 埋め込みは、研究者にとって利用可能な初めてかつ最大級の危機特化埋め込み資源を構成する。
- OOV 正規化リソースはクラウドソーシングによって作成され、タイプミス、略語、スラング、非標準形に対処して NLP タスクの正規化を支援する。
- データセットは複数の国と言語にまたがる19の危機を対象としており、方言を跨ぐ頑健性とNLPモデルのより広い適用性を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。