[論文レビュー] Offensive Language and Hate Speech Detection for Danish
本稿では、RedditとFacebookから収集した、攻撃的言語および嫌がらせ発言検出のための最初の大規模で人手によるアノテーションが施されたデンマーク語データセットを紹介する。多言語分類モデルを提案し、攻撃的言語検出で0.70、標的付き攻撃的言語検出で0.73のマクロF1スコアを達成した。デンマーク語のような低リソース言語においても、共有言語リソースとクロスリンガルモデリングが性能向上に寄与することを示している。
The presence of offensive language on social media platforms and the implications this poses is becoming a major concern in modern society. Given the enormous amount of content created every day, automatic methods are required to detect and deal with this type of content. Until now, most of the research has focused on solving the problem for the English language, while the problem is multilingual. We construct a Danish dataset containing user-generated comments from extit{Reddit} and extit{Facebook}. It contains user generated comments from various social media platforms, and to our knowledge, it is the first of its kind. Our dataset is annotated to capture various types and target of offensive language. We develop four automatic classification systems, each designed to work for both the English and the Danish language. In the detection of offensive language in English, the best performing system achieves a macro averaged F1-score of $0.74$, and the best performing system for Danish achieves a macro averaged F1-score of $0.70$. In the detection of whether or not an offensive post is targeted, the best performing system for English achieves a macro averaged F1-score of $0.62$, while the best performing system for Danish achieves a macro averaged F1-score of $0.73$. Finally, in the detection of the target type in a targeted offensive post, the best performing system for English achieves a macro averaged F1-score of $0.56$, and the best performing system for Danish achieves a macro averaged F1-score of $0.63$. Our work for both the English and the Danish language captures the type and targets of offensive language, and present automatic methods for detecting different kinds of offensive language such as hate speech and cyberbullying.
研究の動機と目的
- 攻撃的言語および嫌がらせ発言検出のためのデンマーク語のアノテーション済みデータセットの不足に対処すること。
- 英語およびデンマーク語の両方で良好に動作する多言語分類システムの開発。
- 攻撃的言語検出における隠蔽や文脈依存性といった言語的課題の分析。
- 攻撃的言語検出、標的検出、および標的タイプ分類のサブタスクごとのモデル性能の評価。
- 研究および共通タスク用に、高品質なデータとモデルをCC-BYライセンスで公開すること。
提案手法
- RedditおよびFacebookのユーザー生成コメントからデンマーク語データセットを構築し、攻撃的言語、標的、標的タイプに関する標準化されたガイドラインに従ってアノテーションを実施した。
- 多言語BERTを用いたトランスファー学習を実施し、英語およびデンマーク語の両方で3つのサブタスクにわたって微調整したモデルを適用した。
- BERTベースのモデルとの性能比較を目的に、論理回帰および追加特徴を備えた補助的Fast-BiLSTMモデルを用いた。
- 誤分類されたサンプルに対してTF-IDFおよびn-gram分析を実施し、隠蔽やキーワード過剰依存といった継続的な失敗パターンを同定した。
- 誤分類例の手動分析を通じて、文脈や隠蔽語の処理におけるモデルの弱みを診断した。
- クラス不均衡およびデータ品質の評価を精度、再現率、混同行列を用いて実施し、全サブタスクのマクロ平均F1スコアを評価指標とした。
実験結果
リサーチクエスチョン
- RQ1多言語モデルは、英語と比較してデンマーク語における攻撃的言語検出においてどの程度有効であるか?
- RQ2隠蔽や文脈依存性の強い汚職語など、どのような言語的パターンが攻撃的言語検出における継続的誤分類を引き起こすか?
- RQ3データ品質およびクラス不均衡は、デンマーク語の攻撃的言語検出におけるモデル性能にどの程度影響を与えるか?
- RQ4BERTモデルや補助的特徴に基づくモデルを含む、さまざまなモデルアーキテクチャは、標的付き攻撃的言語および標的タイプの検出においてどのように比較されるか?
- RQ5共有言語リソースとトランスファー学習は、デンマーク語のような低リソース言語において性能向上を達成できるか?
主な発見
- デンマーク語における攻撃的言語検出で最も優れた性能を示したモデルは、マクロ平均F1スコア0.70を達成し、このタスクでは英語モデル(0.74)を上回った。
- 標的付き攻撃的言語検出においては、デンマーク語モデルがマクロF1スコア0.73を達成し、英語モデル(0.62)を顕著に上回った。
- 標的タイプ分類においては、デンマーク語モデルがマクロF1スコア0.63を達成したのに対し、英語モデルは0.56にとどまり、デンマーク語では細分化されたサブタスクにおける一般化性能が優れていることが示された。
- 『barrrysoetorobullshit』や『Hahhaaha lær det biiiiiaaaatch』のような隠蔽された攻撃的語彙に対して分類器は苦戦し、しばしば非攻撃的と誤分類した。
- モデルは文脈的意味ではなくキーワードの存在(例:'she'、'svensken'、'pikfjæs')に強く依存しており、攻撃的言語検出で誤検出を引き起こしていた。
- データ品質の問題が顕在化しており、明確に標的を定めた侮辱表現(例:'HillaryForPrison')がテストセットで非標的と誤ってラベル付けされており、評価の信頼性に影響を与えていた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。