[论文解读] RusLICA: A Russian-Language Platform for Automated Linguistic Inquiry and Category Analysis
RusLICA 将 LIWC 方法学改编为俄语,构建 96 类别词典与自动分析器,使用 NLP 解析器和预训练模型,作为公共网络服务对外提供。
Defining psycholinguistic characteristics in written texts is a task gaining increasing attention from researchers. One of the most widely used tools in the current field is Linguistic Inquiry and Word Count (LIWC) that originally was developed to analyze English texts and translated into multiple languages. Our approach offers the adaptation of LIWC methodology for the Russian language, considering its grammatical and cultural specificities. The suggested approach comprises 96 categories, integrating syntactic, morphological, lexical, general statistical features, and results of predictions obtained using pre-trained language models (LMs) for text analysis. Rather than applying direct translation to existing thesauri, we built the dictionary specifically for the Russian language based on the content from several lexicographic resources, semantic dictionaries and corpora. The paper describes the process of mapping lemmas to 42 psycholinguistic categories and the implementation of the analyzer as part of RusLICA web service.
研究动机与目标
- 在保留语言学与文化背景的前提下,将 LIWC 适用于俄语。
- 构建 96 类别的词汇表及用于俄语文本的自动分析器。
- 整合句法、形态、词汇与基于模型的特征以进行文本分析。
- 提供一个公开可访问的网络服务,供研究人员分析俄语语料。
提出的方法
- 构建覆盖 96 类别、横跨语言与心理维度的俄语 LIWC 类似词典。
- 使用 SpaCy ru_core_news_lg 进行分词、词形还原和依存分析,以推导句法和形态特征。
- 利用俄语语义词典、RNC 和 RuWordNet 构建 42 个词汇类别,总计 8309 条目。
- 用 MyStem 将词元正规化,以使文本与词典条目对齐并进行评分。
- 结合一个预训练的俄语情感检测模型 (Aniemore/rubert-tiny2-russian-emotion-detection) 将文本分类为 7 种情感。
- 提供一个名为 RusLICA 的 web 服务,上传数据集(.csv/.xlsx),计算类别分数,并输出 CSV/JSON 结果。
实验结果
研究问题
- RQ1如何在俄语语言与形态学背景下有效地改编 LIWC 类似的心理语言学类别?
- RQ2一个公开可访问的工具是否能够从文本中准确量化 96 种俄语词汇与语言特征?
- RQ3将词汇词典与 NLP 解析器和语言模型结合对俄语文本的心理语言学分析有何影响?
主要发现
- 实现了一个 96 类别的俄语分析框架,结合词汇、句法与形态特征以及心理语言学维度。
- 词典使用映射到类别的词元,总计 8309 条目,覆盖 42 个词汇类别以及非词汇特征。
- 预处理包括正规化和词元化;特征来自 ru_core_news_lg 的 SpaCy 解析与 MyStem 对齐。
- RusLICA 服务支持上传数据集,文本在 12 小时处理时限内输出 CSV/JSON 格式的类别分数。
- 一个预训练的情感检测模型为文本情感提供额外的 7 情感分类输出。
- 该平台作为 RusLICA(ruslica.ipran.ru)向研究人员免费开放,以分析大型俄语文本语料。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。