Skip to main content
QUICK REVIEW

[論文レビュー] Aggression-annotated Corpus of Hindi-English Code-mixed Data

Ritesh Kumar, Aishwarya Reganti|arXiv (Cornell University)|Mar 26, 2018
Hate Speech and Cyberbullying Detection参考文献 7被引用数 37
ひとこと要約

本稿では、Twitter および Facebook から収集したヒンディー語-英語のコードミックステキストに関する、新たにアノテートされた攻撃的行動認識コーパスを提示する。このコーパスには約 18,000 件のツイートと 21,000 件の Facebook コメントが含まれる。3 つの上位カテゴリおよび 10 個のサブカテゴリを有する階層的タグセットを用いることで、インドの多言語的ソーシャルメディア環境におけるサイバー攻撃、特にサイバーいじめや嫌がらせ発言の強固な検出が可能となる。

ABSTRACT

As the interaction over the web has increased, incidents of aggression and related events like trolling, cyberbullying, flaming, hate speech, etc. too have increased manifold across the globe. While most of these behaviour like bullying or hate speech have predated the Internet, the reach and extent of the Internet has given these an unprecedented power and influence to affect the lives of billions of people. So it is of utmost significance and importance that some preventive measures be taken to provide safeguard to the people using the web such that the web remains a viable medium of communication and connection, in general. In this paper, we discuss the development of an aggression tagset and an annotated corpus of Hindi-English code-mixed data from two of the most popular social networking and social media platforms in India, Twitter and Facebook. The corpus is annotated using a hierarchical tagset of 3 top-level tags and 10 level 2 tags. The final dataset contains approximately 18k tweets and 21k facebook comments and is being released for further research in the field.

研究の動機と目的

  • 多言語的インドのソーシャルメディアプラットフォームにおける、サイバーいじめや嫌がらせ発言を含むオンライン攻撃の増加に対処すること。
  • 頻度は高いがリソースが不足しているヒンディー語-英語のコードミックステキストに特化した、標準化された攻撃的行動アノテーションフレームワークの開発。
  • インドのソーシャルメディア環境における攻撃的行動検出システムの学習および評価に用いる、大規模かつ人手によるアノテーションが施されたコーパスの作成と公開。
  • 低リソースのコードミックス環境における有害なオンライン行動の検出を支援するリソースを提供することで、計算言語学および NLP 分野の研究を支援すること。
  • インドの言語的・文化的文脈を反映した、自動化された攻撃的行動、トロール、炎上発言の検出に関する今後の研究を可能にすること。

提案手法

  • コーパスは、Twitter および Facebook から収集した実際のデータに基づき構築され、ヒンディー語-英語のコードミックスコンテンツに焦点を当てている。
  • 攻撃的行動の多様な度合いや種別を捉えるために、3 つの上位カテゴリおよび 10 個のサブカテゴリを有する階層的タグセットを設計した。
  • アノテーターはタグセットを用いて各発言をラベル付けし、キャリブレーションおよび品質チェックを通じてアノテーター間の一貫性を確保した。
  • 最終的なデータセットには、18,000 件のツイートおよび 21,000 件の Facebook コメントが含まれており、すべて攻撃的行動の種別について手動でアノテートされている。
  • コーパスは公開リソースとして提供され、NLP や計算的社会科学分野における再現性のある研究を支援する。
  • アノテーションプロセスは、一貫性と信頼性を確保するための制御された複数段階のラベル付けパイプラインに従った。

実験結果

リサーチクエスチョン

  • RQ1ヒンディー語-英語のコードミックスソーシャルメディアコンテンツにおける攻撃的行動の支配的なかたちとパターンは何か?
  • RQ2階層的アノテーションスキームは、多言語的オンラインディスコースにおける攻撃的行動の微細なニュアンスを効果的に捉えることができるか?
  • RQ3インドの Twitter や Facebook などの異なるソーシャルメディアプラットフォームにおいて、攻撃的行動の種別はどのように分布しているか?
  • RQ4提案されたアノテーションスキームは、低リソースのコードミックス NLP タスクにおける信頼性の高いスケーラブルな攻撃的行動検出をどの程度サポートできるか?
  • RQ5インドの言語的・文化的文脈の組み込みが、多言語テキストにおけるサイバー攻撃の同定にどのように影響するか?

主な発見

  • コーパスには約 18,000 件のアノテート済みツイートと 21,000 件のアノテート済み Facebook コメントが含まれており、攻撃的行動検出のための包括的なリソースを形成している。
  • 階層的タグセットは、直接的な中傷、脅し、そして皮肉やからかいといった間接的な形態を含む、多様な攻撃的行動の種別を的確に捉えた。
  • データセットは、特に政治的・社会的に敏感な議論において攻撃的行動が広く見られる傾向を反映している。
  • アノテーションプロセスは高いアノテーター間一貫性を達成しており、タグセットおよびラベル付け手順の信頼性が裏付けられた。
  • コーパスの公開により、特にヒンディー語-英語のような低リソース言語ペアにおける多言語的攻撃的行動検出分野の今後の研究が可能になった。
  • 本研究は、コードミックス環境における大規模かつ文化的に根ざした攻撃的行動アノテーションの実現可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。