Skip to main content
QUICK REVIEW

[论文解读] OntoSenseNet: A Verb-Centric Ontological Resource for Indian Languages

Jyoti Jha, Sreekavitha Parupalli|arXiv (Cornell University)|Jan 1, 2018
Natural Language Processing Techniques参考文献 4被引用 2
一句话总结

OntoSenseNet 提出了一种以动词为中心的本体论资源,用于印地语和泰卢固语,基于形式本体论和印度语言学传统,通过义项类型(sense-types)和义类(sense-classes)来建模词语的内在和外在意义。该资源通过人工标注、词嵌入和基于语料的特征分析实现语义分析,展示了新闻语料与小说语料在动词义项类型和副词义类分布上的显著差异。

ABSTRACT

Following approaches for understanding lexical meaning developed by Yaska, Patanjali and Bhartrihari from Indian linguistic traditions and extending approaches developed by Leibniz and Brentano in the modern times, a framework of formal ontology of language was developed. This framework proposes that meaning of words are in-formed by intrinsic and extrinsic ontological structures. The paper aims to capture such intrinsic and extrinsic meanings of words for two major Indian languages, namely, Hindi and Telugu. Parts-of-speech have been rendered into sense-types and sense-classes. Using them we have developed a gold- standard annotated lexical resource to support semantic understanding of a language. The resource has collection of Hindi and Telugu lexicons, which has been manually annotated by native speakers of the languages following our annotation guidelines. Further, the resource was utilised to derive adverbial sense-class distribution of verbs and karaka-verb sense- type distribution. Different corpora (news, novels) were compared using verb sense-types distribution. Word Embedding was used as an aid for the enrichment of the resource. This is a work in progress that aims at lexical coverage of language extensively.

研究动机与目标

  • 基于古代印度语言学传统和现代形式本体论,开发一种用于印度语言词汇语义的形式本体框架。
  • 创建印地语和泰卢固语的金标准人工标注词汇资源,通过义项类型和义类捕捉内在和外在意义。
  • 通过副词义类分布和kāraka-动词义项类型映射,利用语料数据实现动词的语义分析。
  • 通过动词义项类型频率分析和似然比检验,比较新闻语料与小说语料,识别本体论差异。
  • 利用词嵌入丰富资源,并探讨不同作者之间副词使用中的社会语言学差异。

提出的方法

  • 采用语言形式本体论(Otra)将内涵意义定义为独立于语言的本体原始类型。
  • 将词性定义为义项类型和义类,以动词为核心语义单元,依据印度语言学理论(耶斯卡、帕坦贾利、巴尔特里哈尔)。
  • 使用母语者指南收集并人工标注印地语和泰卢固语词典,建立金标准义项标注。
  • 利用依存句法分析和义类标注,从已解析的印地语语料中提取kāraka-动词义项类型关系。
  • 使用词嵌入(Word2vec)支持义项识别并丰富资源,尤其对泰卢固语具有显著帮助。
  • 在列联表上应用似然比检验,比较新闻语料与小说语料中动词义项类型的分布差异。

实验结果

研究问题

  • RQ1如何将形式本体论应用于建模印度语言中词语的内在和外在意义?
  • RQ2印地语中,新闻语料与小说语料的动词义项类型分布在多大程度上存在差异?
  • RQ3不同作者的小说中,副词义类分布如何变化?
  • RQ4词嵌入能否有效支持低资源语言本体论的义项识别与丰富?
  • RQ5从文学语料中副词使用差异可获得哪些社会语言学启示?

主要发现

  • 动词的‘手段|目的’义项类型在新闻语料中最具指示性,似然比为+38,523.04。
  • ‘处所|定位’义项类型在新闻语料中偏好显著(23.946%),高于小说语料(30.817%),似然比为+14,911.13。
  • 如karwānā(使某人做)和chaunk(感到惊讶)等动词不受空间副词修饰,表明副词修饰存在语义限制。
  • 不同作者的副词义类分布存在显著差异:例如,likhnā(写)在一位作者中主要与‘度量’义类关联,而在另一位作者中则与‘时间’义类关联。
  • 义项标注的kappa评分较高,验证了金标准标注过程的可靠性。
  • 该资源在语料比较中表现出实用性,通过动词义项类型和副词义类的频率分析揭示了本体论差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。