Skip to main content
QUICK REVIEW

[論文レビュー] Findings of the Shared Task on Offensive Span Identification from Code-Mixed Tamil-English Comments

Manikandan Ravikiran, Bharathi Raja Chakravarthi|arXiv (Cornell University)|May 12, 2022
Hate Speech and Cyberbullying Detection被引用数 38
ひとこと要約

本論文は、コード混合のタミル語-英語コメントにおける攻撃的なスパン識別のデータセットを公開し、2つのシステムを比較した。MuRIL+LIMEの根拠抽出アプローチがベースラインを上回ることを示している。

ABSTRACT

Offensive content moderation is vital in social media platforms to support healthy online discussions. However, their prevalence in codemixed Dravidian languages is limited to classifying whole comments without identifying part of it contributing to offensiveness. Such limitation is primarily due to the lack of annotated data for offensive spans. Accordingly, in this shared task, we provide Tamil-English code-mixed social comments with offensive spans. This paper outlines the dataset so released, methods, and results of the submitted systems

研究の動機と目的

  • コード混合タミル語-英語コメントにおける攻撃的スパンを注釈付きデータセットとして提供する。
  • 文字オフセットレベルで攻撃的スパンを識別するシステムを評価する。
  • このタスクでトランスフォーマー系と非トランスフォーマー系のアプローチを比較する。
  • 低リソースのドラビダ語系言語に対する今後の研究を導くためのベースラインと分析を提供する。

提案手法

  • 二つのサブタスク: 監視付きスパン識別と半監視付きスパン識別。
  • 各コメントに対して単一ラベルCAUS Eを用いたスパンのアノテーション、2名の annotator による品質確認を verifiers が実施。
  • System 1 (NITK-IT_NLP): MuRILを用いたトランスフォーマー-based rationale抽出とLIMEで説明としてスパンを選択。
  • System 2 (DLRG): BiLSTM-CRFを用いたGloVe埋め込みでのBIOタグ付けによるトークンラベリング。
  • MuRILをMultilingual-BERTおよびELECTRAに置換して頑健性を検証する追加実行。
  • ベースラインにはランダム文字ラベリング、語彙ベースのスパン抽出、RoBERTaのトークンラベリングベースラインを含む。

実験結果

リサーチクエスチョン

  • RQ1コード混合タミル語-英語テキストでの文字オフセットレベルで攻撃的スパンを信頼性高く識別できるか?
  • RQ2どのモデリングアプローチ(トランスフォーマーによる根拠抽出 vs. トークンレベルのBIOタグ付け)がこのデータセットで攻撃的スパンを最も識別できるか?
  • RQ3半監視付きアプローチはこの文脈で監視付きスパン識別とどう比較されるか?

主な発見

RANKTEAMF1 (%)
1NITK-IT_NLP44.89
BASELINEBENCHMARK 139.75
BASELINEBENCHMARK 237.84
BASELINEBENCHMARK 338.61
  • 提出された2つのシステムを876件のテストコメントで評価。NITK-IT_NLPは44.89%のF1、DLRGは17.28%のF1を達成。
  • ベースラインはそれぞれ39.75%(ランダム)、37.84%(語彙ベース)、38.61%(RoBERTa BIO)。
  • 追加のポストテスト実行ではELECTRA+LIMEが37.33%、M-BERT+LIMEが33.95%としてさらに別の変種。
  • トップシステムはすべてのベースラインを上回り、MuRILとLIMEを用いた根拠抽出による顕著な改善がある。
  • 全体として、長い文と文脈依存性がスパン識別の課題となっており、DLRGの非トランスフォーマーアプローチはトランスフォーマーベースのベースラインと比べて性能が劣る。
  • 方法間の中央値は31.08%で、トップの performers は平均してこれを大きく上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。