[論文レビュー] Abusive Language Detection with Graph Convolutional Networks
論文は異種グラフアプローチとグラフ畳み込みネットワークを用いてオンラインコミュニティと言語行動をモデル化し、乱用言語検出でベースラインより優れた結果を達成している。
Abuse on the Internet represents a significant societal problem of our time. Previous research on automated abusive language detection in Twitter has shown that community-based profiling of users is a promising technique for this task. However, existing approaches only capture shallow properties of online communities by modeling follower-following relationships. In contrast, working with graph convolutional networks (GCNs), we present the first approach that captures not only the structure of online communities but also the linguistic behavior of the users within them. We show that such a heterogeneous graph-structured modeling of communities significantly advances the current state of the art in abusive language detection.
研究の動機と目的
- 作者の言語的行動を取り入れて純粋な構造的コミュニティ特徴だけでは不十分であることの動機づけ。
- 社会的構造とテキスト内容の両方を捉えるための二つのグラフ表現(コミュニティグラフと拡張された著者-ツイートグラフ)を提案。
- 著者プロファイルが言語的行動とコミュニティ構造を反映するように学習する半教師付きGCNベースの手法を開発。
- Waseem & HovyのTwitterデータセットのサブセットを用いてGCNベースの手法を強力なベースラインと比較。
- 実験を通じてGCNベースの著者プロファイリングが従来法を上回ることを実証。
提案手法
- コミュニティを二つのグラフとして表現:同質の著者グラフと著者ノードとツイートノードを含む拡張された異質グラフ。
- 同質グラフ上でnode2vecを用いて著者プロファイルをベースラインとして取得。
- 拡張グラフ上で二層のGraph Convolutional Networkを適用し、ラベル付きツイートノードを半教師付き訓練に用いて全ノードの埋め込みを学習。
- 入力特徴量はバイナリのBag-of-Wordsベクトルで構成され、著者の特徴はすべてのツイートから集約される。
- ラベル付きツイートノードのクロスエントロピー損失で訓練し、最初のGCN層から200次元の埋め込みを著者のために抽出。
- ベースラインと比較:文字n-gramのロジスティック回帰(lr)、ノード2vecの著者プロファイルを利用したlr+authおよびlr+extd、そしてlr+gcn。
実験結果
リサーチクエスチョン
- RQ1著者とそのツイートの両方を含む異種グラフは、著者のみのグラフを超えて乱用言語検出を改善するか。
- RQ2GCNを通じて言語的シグナルを取り入れることは、ノード2vecベースラインと比較して著者プロファイリングとツイート分類を改善するか。
- RQ3GCNベースのプロファイルは、人種差別、性差別、全体の分類指標でどのように機能するか。
主な発見
| 手法 | レイシズム 精度 | レイシズム 再現率 | レイシズム F1 | 性差別 精度 | 性差別 再現率 | 性差別 F1 | 全体 精度 | 全体 再現率 | 全体 F1 |
|---|---|---|---|---|---|---|---|---|---|
| lr | 80.59 | 70.62 | 75.28 | 83.12 | 62.54 | 71.38 | 83.18 | 75.62 | 78.75 |
| lr + auth | 77.95 | 78.35 | 78.15 | 87.28 | 78.41 | 82.61 | 85.26 | 83.28 | 84.18 |
| lr + extd | 77.95 | 78.35 | 78.15 | 87.02 | 78.73 | 82.67 | 85.17 | 83.33 | 84.17 |
| gcn † | 74.12 | 64.95 | 69.23 | 82.48 | 82.22 | 82.35 | 81.90 | 79.42 | 80.56 |
| lr + gcn † | 79.08 | 79.90 | 79.49 | 88.24 | 80.95 | 84.44 | 86.23 | 84.73 | 85.42 |
- lr+gcn法は他の全ての方法より有意に優れている(p<0.05, 対になったt検定)。
- GCNからの著者プロファイルはコミュニティ構造と言語行動の両方を捉え、従来の著者プロファイルでは誤分類されていたケースを解決する。
- GCN単独は性差別で高いリコールを示すが精度が低く、人種差別には乱用著者が混合コンテンツを提供する少数によって苦戦する。
- lrとGCNを組み合わせたlr+gcnは、ツイートレベルの文字n-gram特徴を取り入れることで人種差別の問題を緩和する。
- 拡張グラフ上のノード2vecベース著者プロファイルは、GCNアプローチとは異なり、コミュニティグラフ単独とほとんど、あるいは全く同等の利得をもたらさない。
- 全体として、lr+gcnは人種差別、性差別、クリーン分類クラスのマクロ平均の精度、再現率、F1の全指標で最高を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。