QUICK REVIEW

[论文解读] Preparing Bengali-English Code-Mixed Corpus for Sentiment Analysis of Indian Languages

Soumil Mandal, Sainik Kumar Mahata|arXiv (Cornell University)|Mar 11, 2018

Sentiment Analysis and Opinion Mining参考文献 7被引用 36

一句话总结

本论文提出了一项针对情感分析的高质量比哈鲁-英语代码混用语料库，通过混合规则基础与监督模型的方法实现语言与情感标注的自动化，语言识别准确率达到81%，情感分类准确率达到80.97%。该语料库以JSON格式发布，具有较高的标注者间一致性（情感标注的kappa值为0.94），包含标注数据、词典及用于Twitter API查询的种子词列表。

ABSTRACT

Analysis of informative contents and sentiments of social users has been attempted quite intensively in the recent past. Most of the systems are usable only for monolingual data and fails or gives poor results when used on data with code-mixing property. To gather attention and encourage researchers to work on this crisis, we prepared gold standard Bengali-English code-mixed data with language and polarity tag for sentiment analysis purposes. In this paper, we discuss the systems we prepared to collect and filter raw Twitter data. In order to reduce manual work while annotation, hybrid systems combining rule based and supervised models were developed for both language and sentiment tagging. The final corpus was annotated by a group of annotators following a few guidelines. The gold standard corpus thus obtained has impressive inter-annotator agreement obtained in terms of Kappa values. Various metrics like Code-Mixed Index (CMI), Code-Mixed Factor (CF) along with various aspects (language and emotion) also qualitatively polled the code-mixed and sentiment properties of the corpus.

研究动机与目标

为解决印度语言，特别是比哈鲁-英语代码混用语料库在情感分析中缺乏高质量、公开可用语料的问题。
通过结合规则基础与监督模型的混合系统，减少人工标注工作量，实现语言与情感标注的自动化。
开发一个可靠且可扩展的流水线，用于收集与筛选高质量的代码混用Twitter数据。
建立一个具有高标注者间一致性的高质量标准数据集，以供未来在代码混用印度语言上的自然语言处理系统进行基准测试。
以JSON格式发布结构化、机器可读的语料库，包含语言标签、情感极性及词汇资源。

提出的方法

使用包含1,500个查询词的种子列表，通过Twitter API获取比哈鲁-英语代码混用内容的原始数据。
实施数据清洗流水线，在标注前提升数据质量并减少噪声。
开发混合语言识别系统，结合字符n-gram、词典匹配与监督分类器，准确率达到81%。
构建结合规则基础情感词典（1,200个短语词典，3,000个单字词典）与监督学习（SGDC）的情感分类模型，准确率达到80.97%。
由经过培训的标注员依据标准化指南对最终语料进行标注，确保高标注者间一致性（语言标注的kappa值为0.83，情感标注的kappa值为0.94）。
以JSON格式发布数据集，支持分层数据表示与高效处理。

实验结果

研究问题

RQ1如何高效地收集与过滤代码混用的比哈鲁-英语社交媒体数据，以确保其在自然语言处理任务中的高质量？
RQ2何种混合方法能够实现对混合书写系统与语法的代码混用文本中准确且可扩展的语言识别？
RQ3结合规则基础词典与监督模型是否能提升在代码混用印度语言文本中的情感分类准确率？
RQ4在比哈鲁-英语代码混用语料库中，语言与情感标注的标注者间一致性水平如何？
RQ5语言特征如代码混用指数、表情符号使用频率与词频，在代码混用数据中与情感有何相关性？

主要发现

语言标注系统的最终标准数据集上准确率达到81%，表明其在识别混合语言片段方面具有鲁棒性。
情感分类系统的准确率达到80.97%，F1值为81.2%，显著优于在代码混用数据上使用的单语模型。
标注者间一致性较高，语言标注的Fleiss’ Kappa值为0.83，情感标注的Fleiss’ Kappa值为0.94，表明标注具有一致性。
用户更倾向于使用英文情感词，训练数据中英文正面词有587个，负面词有416个，而比哈鲁语的正面词为118个，负面词为757个。
语料库包含全面的词汇资源：1,200个短语词典、3,000个音译比哈鲁语单字词典，以及常用表情符号列表。
最终数据集以JSON格式发布，支持高效存储与解析具有语言标签与情感标签的分层标注数据。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。