[論文レビュー] Dataset for Identification of Homophobia and Transophobia in Multilingual YouTube Comments
本論文は、ホモフォビアとトランスフォビアを識別するための階層的分類体系と、専門家がラベル付けした多言語のYouTubeコメントデータセット、そしてベースラインモデルを提示します。
The increased proliferation of abusive content on social media platforms has a negative impact on online users. The dread, dislike, discomfort, or mistrust of lesbian, gay, transgender or bisexual persons is defined as homophobia/transphobia. Homophobic/transphobic speech is a type of offensive language that may be summarized as hate speech directed toward LGBT+ people, and it has been a growing concern in recent years. Online homophobia/transphobia is a severe societal problem that can make online platforms poisonous and unwelcome to LGBT+ people while also attempting to eliminate equality, diversity, and inclusion. We provide a new hierarchical taxonomy for online homophobia and transphobia, as well as an expert-labelled dataset that will allow homophobic/transphobic content to be automatically identified. We educated annotators and supplied them with comprehensive annotation rules because this is a sensitive issue, and we previously discovered that untrained crowdsourcing annotators struggle with diagnosing homophobia due to cultural and other prejudices. The dataset comprises 15,141 annotated multilingual comments. This paper describes the process of building the dataset, qualitative analysis of data, and inter-annotator agreement. In addition, we create baseline models for the dataset. To the best of our knowledge, our dataset is the first such dataset created. Warning: This paper contains explicit statements of homophobia, transphobia, stereotypes which may be distressing to some readers.
研究の動機と目的
- オンライン上のホモフォビアとトランスフォビアのための階層的分類体系を提案する。
- YouTubeコメントの専門家ラベル付け済みの多言語データセットを作成し共有する。
- 文化的感受性のために教育者主導のガイドラインで注釈品質を確保する。
- ラベリングプロセスにおけるアノテータ間の一致度を評価する。
- ホモフォビック/トランスフォビックな内容を識別するためのベースラインモデルを提供する。
提案手法
- オンラインコメントにおけるホモフォビアとトランスフォビアの新しい階層分類を開発する。
- 専門家のアノテータと包括的なルールを用いて多言語データセットを収集・注釈する。
- アノテータを教育し、偏見を緩和するために構造化された注釈ガイドラインを用いる。
- 注釈の定性的側面とアノテータ間一致を分析する。
- ターゲットとなる内容の自動識別のためのベースラインモデルを構築する。
実験結果
リサーチクエスチョン
- RQ1階層分類の下で、マルチリンガルなオンラインYouTubeコメントにおけるホモフォビアとトランスフォビアとは何か?
- RQ2専門家の注釈と明確なルールは、敏感なコンテンツのラベリングの信頼性をどう改善できるか?
- RQ3注釈付きデータセットの規模と言語的構成はどのようになっているか?
- RQ4多言語のYouTubeコメントにおけるホモフォビック/トランスフォビックな内容の識別に対して、ベースラインモデルはどの程度の性能を示すか?
- RQ5注釈プロセスにおけるアノテータ間の一致度はどの程度か?
主な発見
- このデータセットには、注釈付きの多言語コメントが15,141件含まれている。
- 信頼性を向上させるため、包括的な規則を備えた専門家主導の注釈プロセスが用いられた。
- 本論文はデータの定性的側面を分析し、アノテータ間の一致を報告している。
- データセット上の初期パフォーマンスを確立するためにベースラインモデルが作成された。
- 本研究はこのトピックに対してこのようなデータセットを提供する最初期の研究の1つと見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。