Skip to main content
QUICK REVIEW

[논문 리뷰] OntoSenseNet: A Verb-Centric Ontological Resource for Indian Languages

Jyoti Jha, Sreekavitha Parupalli|arXiv (Cornell University)|2018. 01. 01.
Natural Language Processing Techniques참고 문헌 4인용 수 2
한 줄 요약

OntoSenseNet는 형식적 철학과 인도어 언어학 전통을 기반으로 하여 히누어와 텔루구어의 동사 중심 온톨로지 자원을 제안한다. 의미 유형과 의미 클래스를 활용하여 내재적이고 외재적 의미를 모델링하며, 수동적 주석, 단어 임베딩, 코퍼스 기반 프로파일링을 통해 의미 분석을 가능하게 한다. 뉴스 및 소설 코퍼스 간의 동사 의미 유형과 부사적 의미 클래스 분포에 상당한 차이가 있음을 입증한다.

ABSTRACT

Following approaches for understanding lexical meaning developed by Yaska, Patanjali and Bhartrihari from Indian linguistic traditions and extending approaches developed by Leibniz and Brentano in the modern times, a framework of formal ontology of language was developed. This framework proposes that meaning of words are in-formed by intrinsic and extrinsic ontological structures. The paper aims to capture such intrinsic and extrinsic meanings of words for two major Indian languages, namely, Hindi and Telugu. Parts-of-speech have been rendered into sense-types and sense-classes. Using them we have developed a gold- standard annotated lexical resource to support semantic understanding of a language. The resource has collection of Hindi and Telugu lexicons, which has been manually annotated by native speakers of the languages following our annotation guidelines. Further, the resource was utilised to derive adverbial sense-class distribution of verbs and karaka-verb sense- type distribution. Different corpora (news, novels) were compared using verb sense-types distribution. Word Embedding was used as an aid for the enrichment of the resource. This is a work in progress that aims at lexical coverage of language extensively.

연구 동기 및 목표

  • 고대 인도어 어휘학 전통과 현대 형식적 온톨로지에 기반한 인도어어의 어휘 의미론을 위한 형식적 온톨로지 프레임워크를 개발하기 위해.
  • 내재적이고 외재적 의미를 의미 유형과 의미 클래스를 통해 포괄하는 골드 표준 수동 주석 어휘 자원을 히누어와 텔루구어에 구축하기 위해.
  • 코퍼스 자료를 활용하여 부사적 의미 클래스 분포와 kāraka-동사 의미 유형 맵핑을 통해 동사의 의미 분석을 가능하게 하기 위해.
  • 뉴스와 소설 코퍼스 간의 언어학적 차이를 동사 의미 유형 빈도 프로파일링과 로그우도 추정을 통해 비교함으로써 온톨로지적 차이를 규명하기 위해.
  • 단어 임베딩을 활용하여 자원을 풍부화하고, 저자 간 부사 사용의 사회어휘적 변동성을 탐색하기 위해.

제안 방법

  • 언어의 형식적 온톨로지(Otra)를 도입하여 의도적 의미를 언어에 종속되지 않는 원천 온톨로지 유형으로 정의하였다.
  • 품사로서의 의미 유형과 의미 클래스를 정의하였으며, 인도어 어휘 이론(Yāska, Patanjali, Bhartrihari)에 기반해 동사를 중심 의미 단위로 설정하였다.
  • 모국어 사용자 가이드라인을 기반으로 히누어와 텔루구어 어휘를 수집하고 수동 주석 처리하여 골드 표준 의미 주석을 확립하였다.
  • 의존성 파싱과 의미 클래스 레이블링을 활용해 파생된 히누어 코퍼스에서 kāraka-동사 의미 유형 관계를 추출하였다.
  • 단어 임베딩(Word2vec)을 활용해 의미 식별을 지원하고 자원을 풍부화시켰으며, 특히 텔루구어에 대해 유용하였다.
  • 뉴스와 소설 코퍼스 간의 동사 의미 유형 분포를 비교하기 위해 연관표(contingency tables)에 로그우도 추정을 적용하였다.

실험 결과

연구 질문

  • RQ1어떻게 형식적 온톨로지가 인도어어의 단어 내재적·외재적 의미를 모델링하는 데 적용될 수 있는가?
  • RQ2히누어에서 뉴스 코퍼스와 소설 코퍼스 간의 동사 의미 유형 분포는 어느 정도 다를까?
  • RQ3히누어 작가들의 소설에서 부사적 의미 클래스 분포는 어떻게 다를까?
  • RQ4단어 임베딩는 저자원 언어 온톨로지의 의미 식별과 풍부화에 효과적으로 기여할 수 있는가?
  • RQ5문학 코퍼스 간의 부사 사용 차이에서 도출할 수 있는 사회어휘적 통찰은 무엇인가?

주요 결과

  • 뉴스 코퍼스에서 '수 Mittel|Ziel' 의미 유형이 가장 뚜렷한 특징을 보였으며, 로그우도는 +38,523.04를 기록하였다.
  • 뉴스 코퍼스에서 'Locus|Ort' 의미 유형은 23.946%로 높은 비중을 차지하였고, 소설 코퍼스(30.817%)보다 뚜렷한 선호도를 보였으며, 로그우도는 +14,911.13이었다.
  • karwānā(누군가를 하게 하다)와 chaunk(놀라다)와 같은 동사는 공간 부사어로 수식되지 않아 부사어 수식에 대한 의미적 제약이 있음을 시사하였다.
  • 다양한 저자 간 부사적 의미 클래스 분포는 뚜렷한 차이를 보였다. 예를 들어, likhnā(쓰다)는 한 저자에서는 주로 '측정'과 연관되었고, 다른 저자에서는 '시간적'과 연관되었다.
  • 의미 주석에 대한 캬파(Kappa) 간 협의도는 높아 골드 표준 주석 프로세스의 신뢰성을 입증하였다.
  • 자원은 코퍼스 비교에 유용하게 기여하였으며, 동사 의미 유형과 부사적 의미 클래스 빈도 프로파일링을 통해 온톨로지적 차이를 드러내었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.