[論文レビュー] Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on Synthetically Generated Code-Mixed Data for Hate Speech Detection
本稿では、マーカフ連鎖に基づくデータ生成手法を用いて、合成的に生成されたタミル-英語およびマラヤーラム-英語のコードミックスデータに対してULMFiTモデルを事前学習することで、ドゥラヴィダ語のコードミックスSNSテキストにおける嫌がらせ発言検出の性能を向上させることを提案する。この手法は、サブタスクB(ラテン文字)で0.88の重み付きF1スコア(2位)を達成し、サブタスクA(混合文字)で0.91のF1スコア(4位)を記録した。これは、低リソースなコードミックスNLPタスクにおいて合成データの有効性を示している。
This paper describes the system submitted to Dravidian-Codemix-HASOC2020: Hate Speech and Offensive Content Identification in Dravidian languages (Tamil-English and Malayalam-English). The task aims to identify offensive language in code-mixed dataset of comments/posts in Dravidian languages collected from social media. We participated in both Sub-task A, which aims to identify offensive content in mixed-script (mixture of Native and Roman script) and Sub-task B, which aims to identify offensive content in Roman script, for Dravidian languages. In order to address these tasks, we proposed pre-training ULMFiT on synthetically generated code-mixed data, generated by modelling code-mixed data generation as a Markov process using Markov chains. Our model achieved 0.88 weighted F1-score for code-mixed Tamil-English language in Sub-task B and got 2nd rank on the leader-board. Additionally, our model achieved 0.91 weighted F1-score (4th Rank) for mixed-script Malayalam-English in Sub-task A and 0.74 weighted F1-score (5th Rank) for code-mixed Malayalam-English language in Sub-task B.
研究の動機と目的
- ドゥラヴィダ語のコードミックス言語(例:タミル-英語、マラヤーラム-英語)における効果的な嫌がらせ発言検出システムの不足に対処すること。
- 低リソースなドゥラヴィダ語コードミックスNLPタスクにおけるデータ不足を克服するため、合成トレーニングデータを生成すること。
- トランスファー学習を活用して、合成コードミックスデータ上でULMFiTを事前学習することで、嫌がらせ発言検出の性能を向上させること。
- 低リソース言語環境におけるコードミックスに、マーカフ連鎖に基づく合成データ生成手法の有効性を評価すること。
提案手法
- ネイティブ文字、変換文字、翻訳テキストを表す3状態を持つマーカフ連鎖モデルを設計し、コードミックス行動を模倣する。
- 学習済み遷移確率を用いて、Wikipedia記事のシーケンス上で状態遷移をサンプリングすることで、合成コードミックスデータを生成する。
- fast.ai実装を用いて、合成コードミックスデータからULMFiTをスクラッチから事前学習し、下流分類タスクにトランスファー学習を活用する。
- テストデータにおける綴りのばらつきや変換エラーに対処するため、SentencePiece(ユニグラムアルゴリズム)によるサブワードトークン化を適用する。
- 最適な収束を得るため、徐々に重みを解放する微調整法と学習率スケジューリング、BPTT=70を用いる。
- 80:20のトレーニング・バリデーション分割を用いてハイパーパrameterを最適化し、ドロップアウト、バッチサイズ、学習率をタスクごとに最適化する。
実験結果
リサーチクエスチョン
- RQ1マーカフプロセスを用いて生成された合成コードミックスデータは、低リソースなドゥラヴィダ語コードミックス言語における嫌がらせ発言検出のための言語モデルを効果的に事前学習できるか?
- RQ2標準的な微調整と比較して、合成コードミックスデータ上でULMFiTを事前学習することで、実世界のコードミックス嫌がらせ発言データセットにおけるF1スコアにどのような差が生じるか?
- RQ3サブワードトークン化の使用は、テストデータにおける綴りのばらつきや変換エラーに対する耐性をどの程度向上させるか?
- RQ4並列なネイティブ、変換、翻訳Wikipediaテキストに基づく合成データ生成手法は、言語的に妥当なコードミックスシーケンスを生成できるか?
- RQ5合成的に事前学習されたULMFiTモデルからのトランスファー学習は、ドゥラヴィダ語コードミックス嫌がらせ発言分類タスクで競争力のある性能を達成できるか?
主な発見
- サブタスクB(ラテン文字でのコードミックスタミル-英語)で0.88の重み付きF1スコアを達成し、コンテストで2位を獲得した。
- サブタスクA(混合文字のマラヤーラム-英語)では0.91の重み付きF1スコアを記録し、全体で4位となった。
- ラテン文字でのマラヤーラム-英語向けサブタスクBでは、0.74の重み付きF1スコアを達成し、リーダーボードで5位となった。
- 混合文字のマラヤーラムデータにおいて、事前学習済みULMFiTモデルはバリデーションパープレキシティ41.22を達成し、強力な言語モデル能力を示した。
- 合成データ生成手法により、実世界の大規模なアノテート済みコードミックスデータがなくても、妥当なコードミックスシーケンスが生成され、効果的な事前学習が可能となった。
- サブワードトークン化の導入により、テストセットにおける綴りのばらつきや変換エラーに対する耐性が向上し、一般化性能の向上に寄与した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。