Skip to main content
QUICK REVIEW

[논문 리뷰] Survey on Publicly Available Sinhala Natural Language Processing Tools and Research

Nisansa de Silva|arXiv (Cornell University)|2019. 06. 05.
Natural Language Processing Techniques참고 문헌 207인용 수 23
한 줄 요약

이 논문은 공개적으로 이용 가능한僧伽라어 자연어 처리(NLP) 도구와 연구에 대한 종합적이고 지속 갱신되는 조사 보고서를 제시한다. 이는 NLP 분야에서의 언어 자원 부족 문제를 해결하고 산산이 흩어진 연구 노력을 통합하고자 한다. 연구는 NLP 계층과 적용 분야에 따라 기존 도구를 체계적으로 분류하고, 숲라라어 문자의 역사적 개요를 제공하며, 연구 추세와 협력 관계를 분석한다. 이 보고서는 arXiv에 정기적으로 업데이트되어 분야 내 지속적인 발전을 반영한다.

ABSTRACT

Sinhala is the native language of the Sinhalese people who make up the largest ethnic group of Sri Lanka. The language belongs to the globe-spanning language tree, Indo-European. However, due to poverty in both linguistic and economic capital, Sinhala, in the perspective of Natural Language Processing tools and research, remains a resource-poor language which has neither the economic drive its cousin English has nor the sheer push of the law of numbers a language such as Chinese has. A number of research groups from Sri Lanka have noticed this dearth and the resultant dire need for proper tools and research for Sinhala natural language processing. However, due to various reasons, these attempts seem to lack coordination and awareness of each other. The objective of this paper is to fill that gap of a comprehensive literature survey of the publicly available Sinhala natural language tools and research so that the researchers working in this field can better utilize contributions of their peers. As such, we shall be uploading this paper to arXiv and perpetually update it periodically to reflect the advances made in the field.

연구 동기 및 목표

  • 스리랑카 내 숲라라어 NLP 연구 그룹 간의 협력 부족과 시각화 부족 문제를 해결하기 위해.
  • 공개적으로 이용 가능한 숲라라어 NLP 도구와 연구에 대한 중앙집중적이고 최신 상태이며 정기적으로 갱신되는 조사 보고서를 제공하기 위해.
  • 언어 처리 계층(음운론적에서 의미론적까지)과 적용 분야(정보 검색, 정보 추출, 자연어 이해)에 걸쳐 기존 NLP 도구를 맵핑하기 위해.
  • 출판물의 인용 패턴과 기관 간 협력 추세를 분석하기 위해.
  • 향후 숲라라어 NLP 분야의 연구 및 도구 개발을 안내하기 위해 arXiv에 지속 갱신되는 참조 자료로 기능하기 위해.

제안 방법

  • 공개적으로 이용 가능한 숲라라어 NLP 도구와 연구 논문에 대한 체계적 문헌 조사.
  • NLP 계층(음운론적, 형태론적, 어휘적, 문법적, 의미론적, 논의적, 의미적)과 적용 분야(정보 검색, 정보 추출, 자연어 이해)에 따라 도구와 연구를 분류.
  • Nandasara와 Mikami의 자료를 활용해 숲라라어 문자의 역사적 발전을 추적.
  • 출판물 메타데이터를 기반으로 공동 저자 및 인용 네트워크 분석을 수행하였으며, PDF 접근성과 텍스트 추출 정확도의 한계로 인해 일부 제약이 존재함.
  • 확률적 인용 모델링을 적용하여 기관 간 협력과 자기 인용 추세를 평가.
  • arXiv에 보고서를 호스팅하고 정기적으로 갱신하여 지속적인 관련성과 접근성을 확보함.

실험 결과

연구 질문

  • RQ1현재 공개적으로 이용 가능한 숲라라어 NLP 도구는 무엇이며, 이는 어떤 언어 처리 계층에 분포되어 있는가?
  • RQ2인용 패턴은 숲라라어 NLP 연구에서 기관 간 협력과 지식 유동성을 어떻게 반영하는가?
  • RQ3숲라라어 NLP 도구 개발의 주요 격차는 무엇이며, 이는 언어가 자원 부족 상태에 있음과 어떻게 관련이 있는가?
  • RQ4숲라라어 문자는 역사적으로 어떻게 발전했으며, 이는 NLP 도구 설계에 어떤 영향을 미치는가?
  • RQ5숲라라어 NLP 연구 분야의 주요 기관들은 상호 간에 얼마나 자주 인용하는가? 특히 국제 기관에 비해 외부 자료를 얼마나 많이 인용하는가?

주요 결과

  • 숲라라어 NLP 분야에서 가장 활발한 기관은 콜로모 대학교 컴퓨터과학과(UCSC)로, 자기 인용 비율이 0.7543에 이른다.
  • 모루타와 대학교의 컴퓨터공학과(CSE)는 더 많은 협력적 인용 행동을 보이며, UCSC를 0.3513의 확률로 인용하고, 다른 기관을 0.1236의 확률로 인용한다.
  • 기관 간 인용 네트워크 분석 결과, 상호 기관 간 협력은 제한적이며, 존스홉킨스 대학교나 에든버러 대학교와 같은 기관들은 주로 구글을 인용하고 스리랑카 연구를 거의 인용하지 않는다.
  • 모루타와 대학교의 정보기술 faculty는 자신의 부서(0.0968)보다 UCSC(0.2339)를 더 자주 인용함으로써, 같은 대학 내에서도 기관 간 선호도가 나타남.
  • 기원전 300년에서 기원후 1000년 사이의 고대 기록과 초기 인쇄 자료(1737년, 1876년)의 역사적 문자 자료를 활용해 문자의 발전 과정을 추적하였으며, 이는 역사적 텍스트 처리를 위한 NLP 도구 설계에 기여한다.
  • 이 조사 보고서는 arXiv에 호스팅되어 있으며, 지속 갱신되는 문서로 간주되며, 숲라라어 NLP 분야의 신규 발전을 반영하기 위해 정기적으로 업데이트된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.