QUICK REVIEW

[論文レビュー] Cross-lingual Zero- and Few-shot Hate Speech Detection Utilising Frozen Transformer Language Models and AXEL

Lukas Stappen, Fabian Brunn|arXiv (Cornell University)|Apr 13, 2020

Hate Speech and Cyberbullying Detection参考文献 49被引用数 52

ひとこと要約

本論文は、HatEvalの英語・スペイン語データに対する uni-/cross-lingual のゼロショット/少数ショット hate speech検出を、AXEL注意機構を用いた新規の凍結Transformer特徴抽出アプローチで tackle し、はるかに少ない学習可能パラメータで競争力のある結果を達成する。

ABSTRACT

Detecting hate speech, especially in low-resource languages, is a non-trivial challenge. To tackle this, we developed a tailored architecture based on frozen, pre-trained Transformers to examine cross-lingual zero-shot and few-shot learning, in addition to uni-lingual learning, on the HatEval challenge data set. With our novel attention-based classification block AXEL, we demonstrate highly competitive results on the English and Spanish subsets. We also re-sample the English subset, enabling additional, meaningful comparisons in the future.

研究の動機と目的

凍結されたTransformer特徴を用いて低リソース言語におけるクロスリンガル hate speech検出を動機づける。
英語とスペイン語のHatEvalデータで、単言語およびクロスリンガル（ゼロショット/少数ショット）学習を評価する。
凍結Transformer特徴から情報を最大化する軽量分類ブロック（AXEL）を開発・評価する。
アウトオブドメインサンプリングを緩和し、一般化をより適切に評価するための分層英語データ分割を提案する。

提案手法

ファインチューニングではなく、凍結されたTransformer言語モデル（BERT base multilingual および XLM）を特徴抽出器として用いる。
選択した層から表現を抽出し、学習可能な分類ブロックへ入力する。
AXELを導入。視覚モジュールに触発された注意機構ベースのブロックで、分類前に連続テキスト特徴を圧縮・強化する。
RCAB、CBAM、CSAR、RAM を含む複数の分類ブロックを比較し、AXELの優れた性能を示す。
一方の言語で訓練し他方でテストするゼロ-shotおよび少数-shotのクロスリンガルトランスファーを評価し、ターゲット言語データを少量注入する方法も評価する。

実験結果

リサーチクエスチョン

RQ1ファインチューニング済みモデルと比較した場合、凍結Transformer特徴は単言語のhate speech検出にどれだけ有効か？
RQ2凍結Transformer表現を用いたhate speech検出でAXELは分類性能を向上させられるか？
RQ3英語とスペイン語のHatEvalデータに対するクロスリンガルゼロ-shotおよび少数-shot学習の影響は？
RQ4分層英語データ分割はアウトオブドメインサンプリングの影響を減らし、一般化を改善するか？
RQ5クロスリンガル表現（XLMベース）はクロス言語hate speech検出において、BERTベースの特徴とどのように比較されるか？

主な発見

AXELを用いた凍結Transformer特徴は、ファインチューニングモデルよりはるかに少ない学習可能パラメータで競争力のあるhate speech検出結果を達成する。
AXELは他の適応ブロックを大幅に上回り、Table 4の結果でEN-Sが71.16 F1、ESが69.70 F1を達成。
クロスリンガルゼロショット性能は一般に単言語より劣るが、AXELはほとんどの設定でXLMベースの選択肢の中で最良を保つ；ゼロショットは翻訳拡張評価で改善されることがある。
少数-shot学習は大きな効果を示し、ターゲット言語データを1%追加するだけでF1が劇的に向上し、いくつかの設定では単言語性能を上回ることもある（例：EN-S）。
新しい英語データ分割（EN-S）はアウトオブドメインサンプリングの影響を減らし、ENとESサブセット間でよりバランスの取れた、比較可能な性能を生む。
XLMベースモデルは、単純なDense/AXEL分類器を用いたゼロショット設定で強力である一方、BERTベースの逐次エンコーダはフルシーケンスエンコーディングの方が恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。