[論文レビュー] Hate Speech Detection on Vietnamese Social Media Text using the Bidirectional-LSTM Model
本稿では、ベトナム語SNSテキストを「クリーン」「攻撃的」「嫌がらせ発言」の3カテゴリに分類するため、FastText語彙埋め込みを用いた双方向LSTM(Bi-LSTM)モデルを提案する。VLSP 2019共有タスクの公開テストセットにおいて71.43%のF1スコアを達成し、SVM、ロジスティック回帰、GRUなどの他のモデルを上回り、ベトナム語の嫌がらせ検出において事前学習済み埋め込みを用いたBi-LSTMの有効性を示している。
In this paper, we describe our system which participates in the shared task of Hate Speech Detection on Social Networks of VLSP 2019 evaluation campaign. We are provided with the pre-labeled dataset and an unlabeled dataset for social media comments or posts. Our mission is to pre-process and build machine learning models to classify comments/posts. In this report, we use Bidirectional Long Short-Term Memory to build the model that can predict labels for social media text according to Clean, Offensive, Hate. With this system, we achieve comparative results with 71.43% on the public standard test set of VLSP 2019.
研究の動機と目的
- 手動によるモデレーションの課題に対処するため、ベトナム語SNSテキストにおける嫌がらせ検出の自動化システムを開発すること。
- 低リソース言語としてのベトナム語の順序付きテキストデータに適したディープラーニングアーキテクチャを活用することで、分類精度を向上させること。
- 同じデータセット上でSVM、ロジスティック回帰、GRU、Bi-LSTMといった複数のモデルを評価・比較し、最も効果的なアプローチを特定すること。
- 前処理、語彙埋め込み選択(FastText対baomoi.vn.model)およびハイパーパrameterチューニングを通じて、モデル性能を最適化すること。
- VLSP 2019のベトナム語SNSにおける嫌がらせ検出共有タスクに対して、競争力のあるソリューションを貢献すること。
提案手法
- 前処理では、テキストを小文字に変換し、URLやメンション、非アルファベット文字、および特定のストップワードを削除した後、整数シーケンスへのトークン化を実施する。
- 語彙埋め込みは、事前学習済みのFastTextおよびbaomoi.vn.model.txtベクトルの形で使用され、ベトナム語の語の意味的意味を捉える。
- コアとなるモデルは、順序付きデータの文脈的依存関係を捉えるために、前向きおよび後向きの両方向でシーケンスを処理する双方向LSTM(Bi-LSTM)ネットワークである。
- Bi-LSTMモデルは、固定長にパディングされたシーケンスを用い、カテゴリカル交差エントロピー損失関数とAdam最適化手法を用いてエンドツーエンドで訓練される。
- 性能評価は、訓練セットおよび公開/非公開テストセットにおいてF1スコア、適合率、再現率、正解率を用いて実施される。
- モデル比較は、SVM、ロジスティック回帰、GRU、Bi-LSTMといった複数のアーキテクチャを対象とし、各モデルのハイパーパrameterを最適化して実施される。
実験結果
リサーチクエスチョン
- RQ1Bi-LSTMモデルは、ベトナム語SNSテキストを「クリーン」「攻撃的」「嫌がらせ発言」の3クラスに効果的に分類できるか?
- RQ2語彙埋め込みの選択(FastText対baomoi.vn.model.txt)が、Bi-LSTMモデルの嫌がらせ検出性能にどのように影響するか?
- RQ3このタスクにおいて、Bi-LSTMモデルは従来の機械学習モデル(例:SVM、ロジスティック回帰)および他のディープラーニングモデル(例:GRU)と比較して、どのように性能を発揮するか?
- RQ4なぜBi-LSTMモデルは公開テストセットでは高い性能を示すが、非公開テストセットでは低い性能を示すのか?この乖離の要因として考えられる要因は何か?
- RQ5低リソースで変形が豊富な言語(例:ベトナム語)の文脈で、モデルの汎化性能を向上させるために最も効果的な前処理ステップは何か?
主な発見
- FastText語彙埋め込みを用いたBi-LSTMモデルは、公開テストセットで最高のF1スコア71.43%を達成し、全参加者の中での順位は2位であった。
- FastText埋め込みを用いた場合、訓練セットでは95.67%の正解率、85.61%の適合率、67.36%の再現率、73.84%のF1スコアを達成した。
- ロジスティック回帰モデルは、公開テストセットでわずか51.15%のF1スコアにとどまり、本タスクにおいては有効性が限定的であることが示された。
- GRUモデルは、公開テストセットで65.01%のF1スコアを達成し、SVM(63.87%)を上回ったが、Bi-LSTMモデルに劣った。
- baomoi.vn.model.txt埋め込みを用いたBi-LSTMモデルは、FastTextに比べて低い性能(F1スコア53.62%)を示し、埋め込みの質が結果に顕著に影響することを示した。
- 公開テストセットでは優れた性能を示したが、非公開テストセットでは6位にとどまり、公開データへの過剰適合またはドメインシフトの可能性が示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。