[논문 리뷰] Dataset for Identification of Homophobia and Transophobia in Multilingual YouTube Comments
이 논문은 위계적 분류 체계와 전문가 라벨링이 된 다국어 YouTube 댓글 데이터셋을 제시하여 호모포비아와 트랜스포비아를 식별하기 위한 베이스라인 모델도 제공한다.
The increased proliferation of abusive content on social media platforms has a negative impact on online users. The dread, dislike, discomfort, or mistrust of lesbian, gay, transgender or bisexual persons is defined as homophobia/transphobia. Homophobic/transphobic speech is a type of offensive language that may be summarized as hate speech directed toward LGBT+ people, and it has been a growing concern in recent years. Online homophobia/transphobia is a severe societal problem that can make online platforms poisonous and unwelcome to LGBT+ people while also attempting to eliminate equality, diversity, and inclusion. We provide a new hierarchical taxonomy for online homophobia and transphobia, as well as an expert-labelled dataset that will allow homophobic/transphobic content to be automatically identified. We educated annotators and supplied them with comprehensive annotation rules because this is a sensitive issue, and we previously discovered that untrained crowdsourcing annotators struggle with diagnosing homophobia due to cultural and other prejudices. The dataset comprises 15,141 annotated multilingual comments. This paper describes the process of building the dataset, qualitative analysis of data, and inter-annotator agreement. In addition, we create baseline models for the dataset. To the best of our knowledge, our dataset is the first such dataset created. Warning: This paper contains explicit statements of homophobia, transphobia, stereotypes which may be distressing to some readers.
연구 동기 및 목표
- 온라인 호모포비아와 트랜스포비아에 대한 위계적 분류 체계를 제안한다.
- YouTube 댓글의 전문가 라벨링 다국어 데이터셋을 만들어 공유한다.
- 문화적 민감성으로 인해 교육자 주도 지침을 통해 주석 품질을 보장한다.
- 주석 과정에서의 서로 다른 주석자 간 일치도(inter-annotator agreement)를 평가한다.
- 호모포비아/트랜스포비아성 콘텐츠를 식별하기 위한 베이스라인 모델을 제공한다.
제안 방법
- 온라인 댓글에서의 호모포비아와 트랜스포비아에 대한 새로운 위계적 분류 체계를 개발한다.
- 전문 주석가와 포괄적 규칙으로 다국어 데이터셋을 구성하고 주석을 다는다.
- 주석자 교육 및 편향 완화를 위한 구조화된 주석 지침을 사용한다.
- 주석의 질적 측면과 주석자 간 일치도(inter-annotator agreement)를 분석한다.
- 대상 콘텐츠의 자동 식별을 위한 베이스라인 모델을 구성한다.
실험 결과
연구 질문
- RQ1위계적 분류 체계 하에서 다국어 온라인 YouTube 댓글에서의 호모포비아와 트랜스포비아는 어떤 것인가?
- RQ2전문가 주석과 명확한 규칙이 민감한 콘텐츠의 주석 신뢰성을 어떻게 향상시킬 수 있는가?
- RQ3주석된 데이터셋의 규모와 다국어 구성은 어떻게 되는가?
- RQ4다국어 YouTube 댓글에서 호모포비아/트랜스포비아 콘텐츠를 식별하는 베이스라인 모델의 성능은 어떠한가?
- RQ5주석 과정에서의 주석자 간 일치도는 어떠한가?
주요 결과
- 데이터셋에는 15,141개의 주석이 달린 다국어 댓글이 포함되어 있다.
- 신뢰성을 높이기 위해 포괄적 규칙을 갖춘 전문가 주도 주석 프로세스가 사용되었다.
- 본 논문은 데이터의 질적 측면을 분석하고 주석자 간 일치도를 보고한다.
- 데이터셋에 대한 초기 성능을 설정하기 위해 베이스라인 모델이 만들어졌다.
- 이 연구는 이 주제에 대해 이와 같은 데이터셋을 제공하는 최초의 연구 중 하나로 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.