[论文解读] Aggression-annotated Corpus of Hindi-English Code-mixed Data
本论文呈现了一个新标注的印地语-英语代码混用文本的攻击性语料库,数据源自推特和脸书,包含约18,000条推文和21,000条脸书评论。通过采用包含三个顶层类别和十个子类别的分层标签体系,该研究实现了对印度多语言社交媒体环境中网络攻击行为(包括网络欺凌和仇恨言论)的稳健检测。
As the interaction over the web has increased, incidents of aggression and related events like trolling, cyberbullying, flaming, hate speech, etc. too have increased manifold across the globe. While most of these behaviour like bullying or hate speech have predated the Internet, the reach and extent of the Internet has given these an unprecedented power and influence to affect the lives of billions of people. So it is of utmost significance and importance that some preventive measures be taken to provide safeguard to the people using the web such that the web remains a viable medium of communication and connection, in general. In this paper, we discuss the development of an aggression tagset and an annotated corpus of Hindi-English code-mixed data from two of the most popular social networking and social media platforms in India, Twitter and Facebook. The corpus is annotated using a hierarchical tagset of 3 top-level tags and 10 level 2 tags. The final dataset contains approximately 18k tweets and 21k facebook comments and is being released for further research in the field.
研究动机与目标
- 为应对多语言印度社交媒体平台上日益普遍的网络攻击行为(包括网络欺凌和仇恨言论)
- 为印地语-英语代码混用文本(一种高频但资源匮乏的语言对)开发一种量身定制的标准化攻击性标注框架
- 创建并发布一个大规模、人工标注的语料库,用于训练和评估印度社交媒体环境中的攻击性检测系统
- 通过提供低资源、代码混用环境下的有害在线行为检测资源,支持计算语言学和自然语言处理研究
- 为未来在印度数字话语中实现攻击性、网络骚扰和挑衅行为的自动化检测提供支持
提出的方法
- 语料库基于从推特和脸书实际收集的印地语-英语代码混用内容构建
- 设计了一个包含三个顶层类别和十个子类别的分层攻击性标签体系,以捕捉不同程度和类型的攻击行为
- 标注员使用该标签体系对每条语句进行标注,并通过校准和质量检查确保标注者间的一致性
- 最终数据集包含18,000条推文和21,000条脸书评论,全部为人工标注的攻击性类型
- 该语料库作为公共资源发布,以支持自然语言处理和计算社会科学中的可复现研究
- 标注过程遵循受控的多阶段标注流程,以确保一致性和可靠性
实验结果
研究问题
- RQ1在印地语-英语代码混用的社交媒体内容中,攻击行为的主要形式和模式是什么?
- RQ2分层标注体系在多语言在线话语中能否有效捕捉攻击行为的细微差别?
- RQ3在印度的社交媒体平台(如推特和脸书)中,攻击性类型的分布情况如何?
- RQ4所提出的标注体系在低资源、代码混用的自然语言处理任务中,能在多大程度上支持可靠且可扩展的攻击性检测?
- RQ5印度语言和文化背景的纳入如何影响多语言文本中网络攻击行为的识别?
主要发现
- 该语料库包含约18,000条标注的推文和21,000条标注的脸书评论,构成了攻击性检测的丰富资源
- 分层标签体系成功捕捉了多种攻击类型,包括直接侮辱、威胁,以及间接形式如讽刺和嘲笑
- 该数据集反映出在印度社交媒体中攻击行为的普遍性,尤其是在涉及政治或社会敏感议题的讨论中
- 标注过程实现了高水平的标注者间一致性,验证了标签体系和标注流程的可靠性
- 语料库的发布为未来在多语言攻击性检测方面的研究提供了支持,特别是针对印地语-英语等低资源语言对
- 本研究证明了在代码混用环境中开展大规模、基于文化背景的攻击性标注的可行性
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。