QUICK REVIEW

[論文レビュー] Proceedings of the 9th International Workshop on Climate Informatics: CI2019

Chen, Chen, Charantonis, Anastase|arXiv (Cornell University)|Dec 1, 2019

Public Relations and Crisis Communication被引用数 4

ひとこと要約

本稿では、空間的・時間的ガウスカーネル集約、TF-IDFテクスト特徴量、ロジスティック回帰を組み合わせることで、ツイッターのデータを用いて都市部における洪水確率を推定するベースライン手法を提案する。ハリーベルハリケーン時におけるヒューストンの洪水セル予測において、テストF1スコア68％を達成し、リアルタイムの洪水マップ作成にソーシャルメディアを活用する可能性を示している。

ABSTRACT

Many climate modeling studies have demon-strated the importance of two-way interactions betweenozone and atmospheric dynamics. However, atmosphericchemistry models needed for calculating changes in ozoneare computationally expensive. Nowack et al. [1] high-lighted the potential of machine learning-based ozoneparameterizations in constant climate forcing simulations,with ozone being predicted as a function of the atmo-spheric temperature state. Here we investigate the roleof additional time-lagged temperature information underpreindustrial forcing conditions. In particular, we testif the use of Long Short-Term Memory (LSTM) neuralnetworks can significantly improve the predictive skill ofthe parameterization. We then introduce a novel workflowto transfer the regression model to the new UK EarthSystem Model (UKESM). For this, we show for the firsttime how machine learning parameterizations could betransferred between climate models, a pivotal step tomaking any such parameterization widely applicable inclimate science. Our results imply that ozone parame-terizations could have much-extended scope as they arenot bound to individual climate models but, once trained,could be used in a number of different models. We hope tostimulate similar transferability tests regarding machinelearning parameterizations developed for other Earthsystem model components such as ocean eddy modeling,convection, clouds, or carbon cycle schemes.

研究の動機と目的

非構造化されたツイッターのデータを、洪水確率を示す地理的に位置付けられたラスターマップに変換する手法を開発すること。
洪水セル対非洪水セル分類の性能を評価するため、異なる特徴表現（SMER、キーワードベース、TF-IDF）を比較すること。
テキスト、位置情報、時刻といった異種のデータソースを統合し、環境的危機モニタリングに応用すること。
都市環境における洪水イベントに関連する顕著な言語的および空間的特徴を特定すること。

提案手法

洪水関連コンテンツの空間的・時間的密度をモデル化するため、ツイートを2次元ラスターセルに集約するために空間的・時間的ガウスカーネル関数を適用する。
ツイートのテキストのTF-IDF表現を用いて特徴量ベクトルを構築し、10件以上のツイートに出現する語のみを保持することで次元削減を実施する。
特徴量ベクトルを二値の洪水確率予測にマッピングするスパースなモデルを学習するために、L1正則化付きロジスティック回帰を用いる。
L1正則化ハイパーパrameterの最適化のため、5分割交差検証戦略を採用し、バランスの取れた訓練・テストセット上でF1スコアを計算する。
20回の独立実行におけるロジスティックモデルからの正規化された重みを用いて特徴量の重要度を順位付けし、予測に寄与する上位語を特定する。
テキストコンテンツ（TF-IDF）、位置情報（ジオタグおよびボーディングボックス）、時刻メタデータといった複数のデータソースを統合し、特徴量ベクトルを豊かにする。

実験結果

リサーチクエスチョン

RQ1ツイッターのデータは、SAR衛星画像から得られるものと同等の確率的洪水マップに効果的に変換可能か？
RQ2異なるテキスト特徴表現（SMER、キーワードベース、TF-IDF）は、グリッドセル単位での洪水発生予測において、どのように比較されるか？
RQ3都市環境における実際の洪水と関連する、ツイッターのコンテンツ内での言語的および空間的特徴は何か？
RQ4空間的・時間的カーネル集約を組み込むことで、ソーシャルメディアにおける洪水関連コンテンツの局所化がどの程度向上するか？

主な発見

TF-IDF特徴表現は、テストF1スコア68％±0.01を達成し、ベースライン手法を著しく上回り、強力な予測能力を示した。
L1正則化付きロジスティック回帰モデルはスパarsityを達成し、平均で非ゼロ特徴量を896個（中央値247個）に削減した。これは効果的な特徴選択を示している。
最も関連性の高い特徴には、予期しない語として「sad」（悲しむ）や「fake」（偽物）が含まれており、これらは洪水に関連する苦情や誤情報の間接的指標を示している可能性がある。
「harvey」という語は、一般のハリケーン議論において頻出するため、その識別力が低下し、上位特徴に含まれなかったが、これはその頻度の高さに起因する可能性がある。
上位特徴に2-gramが1つしか含まれていなかったことから、高次のn-gramは頻度が低く統計的パワーが限られるため、実用的価値が低いことが示された。
モデルの性能は、ランダム予測（F1 = 0.5）を上回っているが、文脈的埋め込みなどの高度なNLP技術を用いることでさらなる改善の余地がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。