[論文レビュー] Offensive Language Identification in Greek
この論文は OGTD を提示する、オフェンシブ言語識別の最初のギリシャ語注釈付きデータセットであり、複数の古典的および深層学習モデルを比較し、Attention付きのLSTM/GRU が OGTD v1.0 でマクロ-F1 約 0.89 を達成した。
As offensive language has become a rising issue for online communities and social media platforms, researchers have been investigating ways of coping with abusive content and developing systems to detect its different types: cyberbullying, hate speech, aggression, etc. With a few notable exceptions, most research on this topic so far has dealt with English. This is mostly due to the availability of language resources for English. To address this shortcoming, this paper presents the first Greek annotated dataset for offensive language identification: the Offensive Greek Tweet Dataset (OGTD). OGTD is a manually annotated dataset containing 4,779 posts from Twitter annotated as offensive and not offensive. Along with a detailed description of the dataset, we evaluate several computational models trained and tested on this data.
研究の動機と目的
- OGTDを導入する、Twitter上のギリシャ語の攻撃的言語検出の最初の注釈付きデータセット。
- データセットの詳細な説明、注釈ガイドライン、およびアノテータ間信頼性を提供する。
- OGTD上で古典的MLと深層学習モデルのベンチマークを行い、ベースラインを確立し、効果的なアプローチを特定する。
- TF-IDF の unigram/bigram や言語的特徴(POS、依存タグ)を含む特徴セットを探索し、ギリシャ語に対して。
- 跨語・ギリシャ語NLPリソース開発の含意と将来のデータセット改善について論じる。
提案手法
- ギリシャ関連のキーワードと粗野語を用いてTwitter API経由でギリシャ語ツイートを収集し、多様な攻撃的言語コーパスを構築する。
- 小文字化とノンアクセント正規化による前処理;URL、絵文字、@USER メンションを削除;ツイートを重複排除する。
- 4,779件のツイートを Greek ガイドラインを用いて Offensive/Not Offensive/Spam に注釈付け;アノテータ間一致の Cohen’s kappa を計算。
- TF-IDF unigram/bigram特徴量と Linear SVM, RBF SVM, SGDC, Multinomial NB, Bernoulli NB などの分類器を用いて複数のモデルを訓練・評価。
- 言語特徴(POSタグ、依存関係)とギリシャ語の単語埋め込みを深層学習モデルに取り入れ、 multilingual BERT と比較。
- 深層学習モデルには Pooled GRU、Attention付きStacked LSTM、Attention付きLSTM/GRU、2D Convolution、Capsule付きGRU、CapsuleとAttention付きLSTM、BERTベースの手法を含む。
実験結果
リサーチクエスチョン
- RQ1ギリシャ語の攻撃的言語データセットを作成・注釈付けすることは可能で、アノテータ間信頼性は得られるのか?
- RQ2どの特徴セット(TF-IDF の unigram vs bigram、POS/依存、意味的埋め込み)がギリシャ語の攻撃的言語検出で最も良い性能を示すのか?
- RQ3OGTD のタスクで古典的MLモデルと深層学習モデルを比較するとどうなるのか?
- RQ4ギリシャ語の語彙埋め込みと多言語 BERT のこのタスクへの影響は?
- RQ5OGTD を v2.0 に拡張し、OffensEval 2020 のようなクロスリンガル/共有タスクにどのように活用できるのか?
主な発見
- OGTD v1.0 には 4,779 件のツイートを含み、約 29% が offensive コンテンツ。
- 古典モデルの中で Linear SVM と SGDC が高い macro-F1 を達成し、Linear SVM がしばしばやや優れる。
- TF-IDF unigram 特徴は古典モデルで一般に bigram よりも優れており、POS と依存特徴は Linear SVM に対してわずかな利得をもたらすが、他のモデルには悪影響。
- ギリシャ語の語彙埋め込みを用いた深層学習モデルは古典モデルを上回り、Attention付きの LSTM/GRU が最良の macro-F1(約 0.89)を示し、マルチリンガル BERT はモノリンガルのギリシャ語埋め込みより性能が劣る。
- BERTベースの多言語モデルはこのタスクではギリシャ語語彙埋め込みより劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。