QUICK REVIEW

[論文レビュー] NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection using Cross-lingual Representation Learner

Eftekhar Hossain, Omar Sharif|arXiv (Cornell University)|Jan 1, 2021

Hate Speech and Cyberbullying Detection参考文献 19被引用数 7

ひとこと要約

本稿では、マルチリンガルなコードミックスド希望スピーチ検出システムを提案し、クロスリンガルトランスフォーマー・モデルを用いる。XLM-RoBERTaは、英語、タミル語、マラヤーラム語の各言語で最先端の性能を達成し、重み付きF1スコアはそれぞれ0.931、0.602、0.854を記録した。この手法は、ソーシャルメディアから得たマルチリンガルでコードミックスドなデータセットを用いて事前学習済みトランスフォーマーを微調整することで、従来の機械学習および深層学習手法を上回る性能を発揮する。

ABSTRACT

In recent years, several systems have been developed to regulate the spread of negativity and eliminate aggressive, offensive or abusive contents from the online platforms. Nevertheless, a limited number of researches carried out to identify positive, encouraging and supportive contents. In this work, our goal is to identify whether a social media post/comment contains hope speech or not. We propose three distinct models to identify hope speech in English, Tamil and Malayalam language to serve this purpose. To attain this goal, we employed various machine learning (support vector machine, logistic regression, ensemble), deep learning (convolutional neural network + long short term memory) and transformer (m-BERT, Indic-BERT, XLNet, XLM-Roberta) based methods. Results indicate that XLM-Roberta outdoes all other techniques by gaining a weighted $f_1$-score of $0.93$, $0.60$ and $0.85$ respectively for English, Tamil and Malayalam language. Our team has achieved $1^{st}$, $2^{nd}$ and $1^{st}$ rank in these three tasks respectively.

研究の動機と目的

マルチリンガルでコードミックスドなソーシャルメディア投稿における希望スピーチ（肯定的で励ましの内容、励ます内容）を検出する計算モデルの開発。
アノテーション付きデータセットの不足と、マルチリンガルおよびコードミックスドなテキストが希望スピーチ検出に与える課題の解決。
従来の機械学習、深層学習、トランスフォーマー基盤アーキテクチャを含む多様なモデルの性能を評価・比較すること。
英語、タミル語、マラヤーラム語の各言語において、希望スピーチ、希望スピーチでない、および意図しない言語（NIL）を高精度に分類すること。

提案手法

英語、タミル語、マラヤーラム語のマルチリンガルでコードミックスドな希望スピーチデータセットを用いて、XLM-RoBERTa、m-BERT、Indic-BERT、XLNet、およびBERTベースのモデルを微調整した。
言語間の意味的および構文的パターンを捉えるために、クロスリンガル表現学習者を介した転移学習を採用した。
従来の機械学習および深層学習モデルのベースライン特徴量として、TF-IDFおよびFastText埋め込みを用いた。
KerasとFastText埋め込みを用いて、CNNとBiLSTMアーキテクチャを組み合わせ、テキスト内の順序的および局所的パターンをモデル化した。
30エポックにわたり、初期の学習率が2e−5で、効率的なトランスフォーマーモデルの微調整を実現するため、エアリー・ストッピングおよびKtrainの'fit onecycle'手法を適用した。
バリデーションセットを用いた広範なハイパーパramータチューニングを実施し、最終的な性能は未観測のテストセットで評価した。

実験結果

リサーチクエスチョン

RQ1複数の言語にまたがるコードミックスドな希望スピーチ検出において、従来の機械学習および深層学習モデルと最先端のトランスフォーマーモデルの性能はどのように比較されるか？
RQ2マルチリンガル事前学習およびクロスリンガル転移学習が希望スピーチ検出性能に与える影響は何か？
RQ3なぜXLM-RoBERTaは、このマルチリンガルでコードミックスドな環境下で他のトランスフォーマーモデルを上回るのか？
RQ4クラス不均衡およびコードミックスド現象が、モデルの一般化性能および誤分類パターンに与える影響は何か？
RQ5マルチリンガルモデルは、タミル語やマラヤーラム語のような低リソース言語の希望スピーチを効果的に検出できるか？

主な発見

XLM-RoBERTaは、英語のテストセットで最高の重み付きF1スコア0.931を達成し、他のすべてのモデルを上回った。
タミル語では、XLM-RoBERTaが重み付きF1スコア0.602を記録し、m-BERT（0.588）、Indic-BERT（0.578）、XLNet（0.558）を上回った。
マラヤーラム語では、XLM-RoBERTaが重み付きF1スコア0.854を達成し、Indic-BERT（0.840）およびm-BERT（0.804）を上回った。
アンサンブルモデルは、従来の機械学習モデルの中で最高の性能を示し、英語では重み付きF1スコア0.905、タミル語では0.573を記録した。
混同行列の結果、モデルは特にコードミックスド現象とクラス不均衡の影響により、希望スピーチ（HS）と希望スピーチでない（NHS）を最も頻繁に混同していた。
高い性能にもかかわらず、モデルは「意図しない言語（NIL）」クラスで苦戦しており、訓練データが限られている低リソースで短いテキストを多くNHSとして誤分類していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。