Skip to main content
QUICK REVIEW

[논문 리뷰] Urdu Morphology, Orthography and Lexicon Extraction

Muhammad Humayoun, Harald Hammarström|arXiv (Cornell University)|2022. 04. 06.
Natural Language Processing Techniques참고 문헌 13인용 수 51
한 줄 요약

논문은 소프트웨어 API로 우르두어 언어 기능을 구현하는 방법을 다루며, 표기법, 형태소, 어휘 추출을 재사용 가능한 프레임워크 내에서 다룬다. 작은 우르두어 구문 구성요소를 통해 재사용성을 시연한다.

ABSTRACT

Urdu is a challenging language because of, first, its Perso-Arabic script and second, its morphological system having inherent grammatical forms and vocabulary of Arabic, Persian and the native languages of South Asia. This paper describes an implementation of the Urdu language as a software API, and we deal with orthography, morphology and the extraction of the lexicon. The morphology is implemented in a toolkit called Functional Morphology (Forsberg & Ranta, 2004), which is based on the idea of dealing grammars as software libraries. Therefore this implementation could be reused in applications such as intelligent search of keywords, language training and infrastructure for syntax. We also present an implementation of a small part of Urdu syntax to demonstrate this reusability.

연구 동기 및 목표

  • 우르두어를 위한 표기법, 형태소 및 어휘 추출을 지원하는 소프트웨어 API 구축의 동기를 제시한다.
  • 모듈형 도구 키트 내에서 문법을 소프트웨어 라이브러리로 재사용하는 사례를 선보인다.
  • 재사용성을 설명하기 위한 작은 우르두어 구문 구성요소를 시연한다.

제안 방법

  • Functional Morphology 도구킷(Forsberg & Ranta, 2004)을 사용하여 우르두어 언어 기능을 구현한다.
  • 문법을 재사용 가능한 소프트웨어 라이브러리로 간주하여 키워드 검색 및 언어 훈련과 같은 응용을 가능하게 한다.
  • 형태소 모듈과 함께 표기 처리 및 어휘 추출을 통합한다.
  • 끝에서 끝까지 재사용을 설명하기 위한 작은 구문 구성요소를 제공한다.

실험 결과

연구 질문

  • RQ1재사용 가능한 소프트웨어 라이브러리의 일부로 우르두어 형태소를 어떻게 표현하고 조작할 수 있는가?
  • RQ2재사용 가능한 도구 키트에서 우르두어의 표기법과 어휘 추출을 형태소와 함께 통합할 수 있는가?
  • RQ3작은 우르두어 구문 구성요소가 문법 라이브러리의 재사용성을 어느 정도까지 시연할 수 있는가?

주요 결과

  • Functional Morphology 프레임워크를 사용하여 우르두어 언어 구현을 소프트웨어 API로 달성할 수 있다.
  • 형태소, 표기법, 어휘 추출을 모듈식 도구 키트 내에서 통합하여 지능형 키워드 검색 및 언어 훈련과 같은 응용을 지원할 수 있다.
  • 작은 우르두어 구문 구성요소는 우르두어 문법을 소프트웨어 라이브러리로 재사용하는 것을 시연한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.