Skip to main content
QUICK REVIEW

[論文レビュー] Automatic Sexism Detection with Multilingual Transformer Models

Mina Schütz, Jaqueline Boeck|arXiv (Cornell University)|Jun 9, 2021
Hate Speech and Cyberbullying Detection被引用数 8
ひとこと要約

本稿では、外部データセット(HatEval2019 および MeTwo)を用いた自己教師あり事前学習と EXIST2021 ベンチマークにおける微調整を組み合わせた、マルチリンガル変換器ベースの自動セクハラ検出手法を提示する。最良のモデルは、二値分類(5位)でマクロ F1 スコア 0.7752、詳細分類(6位)でマクロ F1 スコア 0.5589 を達成し、意味的に関連するデータに対する事前学習が微調整のみに比べて、モデルの頑健性と一般化性能を向上させることを示している。

ABSTRACT

Sexism has become an increasingly major problem on social networks during the last years. The first shared task on sEXism Identification in Social neTworks (EXIST) at IberLEF 2021 is an international competition in the field of Natural Language Processing (NLP) with the aim to automatically identify sexism in social media content by applying machine learning methods. Thereby sexism detection is formulated as a coarse (binary) classification problem and a fine-grained classification task that distinguishes multiple types of sexist content (e.g., dominance, stereotyping, and objectification). This paper presents the contribution of the AIT_FHSTP team at the EXIST2021 benchmark for both tasks. To solve the tasks we applied two multilingual transformer models, one based on multilingual BERT and one based on XLM-R. Our approach uses two different strategies to adapt the transformers to the detection of sexist content: first, unsupervised pre-training with additional data and second, supervised fine-tuning with additional and augmented data. For both tasks our best model is XLM-R with unsupervised pre-training on the EXIST data and additional datasets and fine-tuning on the provided dataset. The best run for the binary classification (task 1) achieves a macro F1-score of 0.7752 and scores 5th rank in the benchmark; for the multiclass classification (task 2) our best submission scores 6th rank with a macro F1-score of 0.5589.

研究の動機と目的

  • マルチリンガルソーシャルメディアコンテンツにおけるセクハラ検出の課題に取り組むこと、特に注釈付きトレーニングデータが限られている状況を想定する。
  • セクハラ検出の低リソース NLP 環境において、モデルの一般化性能を向上させ、過学習を低減すること。
  • マルチリンガル変換器モデルを用いたデータ拡張およびトランスファー学習戦略の有効性を評価すること。
  • mBERT と XLM-R の両方が、二値分類および詳細分類タスクにおいて、それぞれの性能を比較すること。
  • ターゲットデータセットへの教師あり微調整のみに比べ、外部データセットにおける自己教師あり事前学習が優れているかどうかを特定すること。

提案手法

  • 本研究では、二値分類および多クラス分類タスクに、mBERT および XLM-R の2つのマルチリンガル変換器モデルを用いる。
  • モデルの一般化性能を向上させるために、メンション、ハッシュタグ、URL、数字、標点、ASCII 以外の文字を含む包括的な前処理パイプラインを適用した。
  • 外部データセット(HatEval2019:女性および移民に対する嫌がらせ発言、MeTwo:スペイン語のセクハラ表現)を、自己教師あり事前学習に用いた。
  • データ拡張として翻訳バックプロセスを用いたトレーニングインスタンスの変換を実施し、EXIST2021 データセット上でモデルを微調整した。
  • 複数のモデル(例:mBERT と XLM-R)の予測を統合するためのラテナル融合戦略を採用し、クラスごとの確率の最大値をとることで、モデルの頑健性を向上させた。
  • 最良のモデルは、EXIST、HatEval2019、MeTwo データセットを用いた XLM-R の自己教師あり事前学習と、その後の EXIST データセットへの教師あり微調整を組み合わせたものであった。

実験結果

リサーチクエスチョン

  • RQ1ターゲットデータセットへの微調整のみに比べ、意味的に関連する外部データセットにおける自己教師あり事前学習が、マルチリンガル変換器のセクハラ検出性能を向上させるか?
  • RQ2翻訳バックプロセスによるデータ拡張は、低リソースなセクハラ検出タスクにおけるモデルの一般化性能を向上させるか?
  • RQ3トランスファー学習戦略を用いた場合、XLM-R が mBERT よりも二値分類および詳細分類タスクで優れた性能を示すか?
  • RQ4英語およびスペイン語のマルチリンガルデータの統合は、クロスリンガルセクハラ検出におけるモデル性能を向上させるか?
  • RQ5前処理パイプラインの選定が、EXIST2021 ベンチマークにおけるモデル性能に与える影響の程度はどの程度か?

主な発見

  • EXIST、HatEval2019、MeTwo データセットを用いた自己教師あり事前学習を施した XLM-R モデルが最良の性能を示し、二値分類タスク(タスク1)でマクロ F1 スコア 0.7752 を達成し、ベンチマークで 5 位となった。
  • 詳細分類タスク(タスク2)では、同じ XLM-R ベースのアプローチがマクロ F1 スコア 0.5589 を達成し、全体で 6 位となった。
  • データ拡張を施した EXIST データセット上で微調整された mBERT モデルは、過学習の兆候を示しており、タスク1において検証精度が 79.97%、テスト精度がわずか 71.82% にとどまった。
  • 複数モデルを統合するラテナル融合戦略は、わずかに頑健性を向上させたが、最良の個別 XLM-R モデルを上回ることはできず、タスク1で 10 位、タスク2で 8 位となった。
  • 同じモデルをターゲットデータセットにのみ微調整するのではなく、外部データセットでの事前学習を施した場合に優れた結果が得られたことから、低リソース環境において、ドメイン適応型事前学習が直接微調整よりも効果的であることが示された。
  • 元の(前処理を行わない)データで微調整した場合、英語コンテンツではスペイン語コンテンツよりも顕著に性能が高く、言語固有のデータ品質または分布の問題が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。