Skip to main content
QUICK REVIEW

[논문 리뷰] RusLICA: A Russian-Language Platform for Automated Linguistic Inquiry and Category Analysis

Elina Sigdel, А. Л. Панфилова|arXiv (Cornell University)|2026. 01. 28.
Mental Health via Writing인용 수 0
한 줄 요약

RusLICA가 러시아어에 LIWC 방법론을 적용하여 96-category 사전과 NLP 파서 및 사전 학습된 모델을 이용한 자동 분석기를 구축하고, 이를 공개 웹 서비스로 배포합니다.

ABSTRACT

Defining psycholinguistic characteristics in written texts is a task gaining increasing attention from researchers. One of the most widely used tools in the current field is Linguistic Inquiry and Word Count (LIWC) that originally was developed to analyze English texts and translated into multiple languages. Our approach offers the adaptation of LIWC methodology for the Russian language, considering its grammatical and cultural specificities. The suggested approach comprises 96 categories, integrating syntactic, morphological, lexical, general statistical features, and results of predictions obtained using pre-trained language models (LMs) for text analysis. Rather than applying direct translation to existing thesauri, we built the dictionary specifically for the Russian language based on the content from several lexicographic resources, semantic dictionaries and corpora. The paper describes the process of mapping lemmas to 42 psycholinguistic categories and the implementation of the analyzer as part of RusLICA web service.

연구 동기 및 목표

  • 러시아어의 형태소 및 문화적 요소를 고려하여 LIWC를 러시아어에 적응시킨다.
  • 96-category 어휘집과 자동 분석기를 러시아어 텍스트를 위해 구축한다.
  • 구문, 형태소, 어휘 및 모델 기반 특징을 통합한 텍스트 분석 방법을 제시한다.
  • 연구자들이 러시아어 말뭉치를 분석할 수 있도록 공개적으로 접근 가능한 웹 서비스를 제공한다.

제안 방법

  • 언어적 및 심리적 차원을 아우르는 96-category를 포함하는 러시아어 LIWC 유사 어휘집을 개발한다.
  • 토큰화, 형태소 분석, 의존 구문 분석을 위해 SpaCy ru_core_news_lg를 사용하여 구문적 및 형태적 특징을 도출한다.
  • 러시아 시맨틱 사전, RNC, RuWordNet를 활용하여 42개의 어휘 범주를 구성하고 총 8309 항목으로 확장한다.
  • 점수를 매기기 위해 텍스트를 어휘 사전 항목과 일치시키도록 Lemma를 MyStem으로 정규화한다.
  • 7개 감정으로 분류하기 위한 사전학습된 러시아어 감정 탐지 모델(Aniemore/rubert-tiny2-russian-emotion-detection)을 포함한다.
  • CSV/.xlsx 형식의 데이터셋을 업로드하고 카테고리 점수를 계산하여 CSV/JSON 결과를 출력하는 RusLICA 웹 서비스를 제공한다.

실험 결과

연구 질문

  • RQ1LIWC 유사 심리언어학적 범주를 러시아어의 형태소 및 언어에 효과적으로 적용하려면 어떻게 해야 하는가?
  • RQ2공개적으로 접근 가능한 도구가 작성된 텍스트에서 96개의 러시아어 어휘 및 언어적 특징을 정확하게 정량화할 수 있는가?
  • RQ3러시아어 텍스트의 심리언어학적 분석에 어휘 사전과 NLP 파서 및 언어 모델의 결합이 미치는 영향은 무엇인가?

주요 결과

  • 96-category 러시아어 분석 프레임워크가 구현되어 어휘적, 구문적, 형태적 특징을 심리언어학적 차원과 결합했다.
  • 사전은 어근(lemmas)을 범주에 매핑하여 42개의 어휘 범주와 비어휘 특징을 포함해 총 8309 항목의 어휘 엔트리를 사용한다.
  • 전처리는 정규화 및 표제어 추출(lemma) 기반이며, SpaCy 파싱(ru_core_news_lg)과 MyStem 정렬에서 특징을 계산한다.
  • RusLICA 서비스는 데이터셋 업로드를 지원하고 텍스트의 카테고리 점수를 CSV/JSON 형식으로 12시간 이내 처리한 결과를 반환한다.
  • 사전 학습된 감정 탐지 모델이 7-감정 스키마의 텍스트 감정에 대한 추가 분류 결과를 제공한다.
  • 연구자가 대규모 러시아어 텍스트 말뭉치를 분석할 수 있도록 RusLICA (ruslica.ipran.ru)로 자유롭게 접근 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.