[논문 리뷰] Aggression-annotated Corpus of Hindi-English Code-mixed Data
이 논문은 트위터와 페이스북에서 수집한 히ン두어-영어 혼합 텍스트에 대해 새로이 정제된 폭력성 인식 코퍼스를 제시한다. 이 코퍼스에는 약 18,000개의 트윗과 21,000개의 페이스북 댓글이 포함되어 있으며, 3개의 상위 수준 및 10개의 하위 수준으로 구성된 계층적 태그셋을 사용하여 인도 다국어 소셜 미디어 환경에서 사이버 폭력 및 증오 발언과 같은 폭력성의 강력한 탐지를 가능하게 한다.
As the interaction over the web has increased, incidents of aggression and related events like trolling, cyberbullying, flaming, hate speech, etc. too have increased manifold across the globe. While most of these behaviour like bullying or hate speech have predated the Internet, the reach and extent of the Internet has given these an unprecedented power and influence to affect the lives of billions of people. So it is of utmost significance and importance that some preventive measures be taken to provide safeguard to the people using the web such that the web remains a viable medium of communication and connection, in general. In this paper, we discuss the development of an aggression tagset and an annotated corpus of Hindi-English code-mixed data from two of the most popular social networking and social media platforms in India, Twitter and Facebook. The corpus is annotated using a hierarchical tagset of 3 top-level tags and 10 level 2 tags. The final dataset contains approximately 18k tweets and 21k facebook comments and is being released for further research in the field.
연구 동기 및 목표
- 다국어 인도 소셜 미디어 플랫폼에서 증가하는 온라인 폭력성, 특히 사이버 폭력 및 증오 발언의 확산을 다루기 위해.
- 히ン두어-영어 혼합 텍스트에 특화된 표준화된 폭력성 태깅 프레임워크를 개발하기 위해.
- 인도 소셜 미디어 환경에서 폭력성 탐지 시스템을 훈련하고 평가하기 위해 대규모로 수작업 태깅된 코퍼스를 구축하고 공개하기 위해.
- 저자원, 혼합 언어 환경에서의 해로운 온라인 행동 탐지 자원을 제공하여 계산어휘학 및 NLP 분야의 연구를 지원하기 위해.
- 인도 디지털 디스course에서 폭력성, 토링, 플레밍의 자동 탐지 향후 연구를 가능하게 하기 위해.
제안 방법
- 코퍼스는 트위터와 페이스북에서 수집한 실제 데이터를 기반으로 하며, 히ン두어-영어 혼합 콘텐츠에 집중한다.
- 폭력성의 다양한 정도와 유형을 포괄하기 위해 3개의 상위 수준 카테고리와 10개의 하위 카테고리로 구성된 계층적 폭력성 태그셋을 설계하였다.
- 태깅자들이 태그셋을 사용하여 각 발언을 레이블링하였으며, 캘리브레이션 및 품질 점검을 통해 상호 평가 일致도를 확보하였다.
- 최종 데이터셋은 수작업으로 태깅된 18,000개의 트윗과 21,000개의 페이스북 댓글을 포함한다.
- 코퍼스는 NLP 및 계산사회과학 분야의 재현 가능한 연구를 지원하기 위해 공개 자원으로 제공된다.
- 태깅 과정은 일관성과 신뢰성을 확보하기 위해 통제된 다단계 레이블링 파이프라인을 따르였다.
실험 결과
연구 질문
- RQ1히ン두어-영어 혼합 소셜 미디어 콘텐츠에서 지배적인 폭력성 형태와 패턴은 무엇인가?
- RQ2계층적 태깅 체계는 다국어 온라인 디스course에서 폭력성의 미묘한 차이를 효과적으로 포착할 수 있는가?
- RQ3인도의 트위터와 페이스북과 같은 다양한 소셜 미디어 플랫폼 간 폭력성 유형의 분포는 어떻게 되는가?
- RQ4제안된 태깅 체계는 저자원, 혼합 언어 NLP 작업에서 신뢰성 있고 확장 가능한 폭력성 탐지에 얼마나 기여하는가?
- RQ5인도어 언어적 및 문화적 맥락의 통합은 다국어 텍스트에서 사이버 폭력성의 식별에 어떤 영향을 미치는가?
주요 결과
- 코퍼스에는 약 18,000개의 태깅된 트윗과 21,000개의 태깅된 페이스북 댓글이 포함되어 있어 폭력성 탐지에 중요한 자원이 된다.
- 계층적 태그셋은 직접적인 모욕, 위협, 그리고 비꼬임, 풍자와 같은 간접적 형태의 폭력성까지 다양한 폭력성 유형을 성공적으로 포착하였다.
- 데이터셋은 특히 정치적 또는 사회적으로 敏감한 논의에서 폭력적 행동의 빈도를 반영하고 있다.
- 태깅 과정에서 높은 수준의 상호 평가 일치도를 달성하여 태그셋과 레이블링 절차의 신뢰성을 검증하였다.
- 코퍼스의 공개는 향후 저자원 언어 쌍인 히ン두어-영어에 특화된 다국어 폭력성 탐지 연구를 가능하게 한다.
- 본 연구는 혼합 언어 환경에서 문화적으로 기반을 둔 대규모 폭력성 태깅의 실현 가능성을 입증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.