Skip to main content
QUICK REVIEW

[论文解读] Dependency resolution and semantic mining using Tree Adjoining Grammars for Tamil Language

Vijay Menon, Suresh Rajendran|arXiv (Cornell University)|Jan 1, 2015
Natural Language Processing Techniques被引用 1
一句话总结

本文提出了一种基于树附着语法(TAGs)的泰米尔语依赖解析与语义挖掘框架,利用基于Schabes和Joshi(1988)算法的自研伪词法TAG图表解析器,无需统计排序即可推导句法结构。主要贡献在于证明TAGs能够捕捉泰米尔语复杂的黏附性词形变化和论元结构,同时通过完整推导探索实现语义推理。

ABSTRACT

Tree adjoining grammars (TAGs) provide an ample tool to capture syntax of many Indian languages. Tamil represents a special challenge to computational formalisms as it has extensive agglutinative morphology and a comparatively difficult argument structure. Modelling Tamil syntax and morphology using TAG is an interesting problem which has not been in focus even though TAGs are over 4 decades old, since its inception. Our research with Tamil TAGs have shown us that we can not only represent syntax of the language, but to an extent mine out semantics through dependency resolution of the sentence. But in order to demonstrate this phenomenal property, we need to parse Tamil language sentences using TAGs we have built and through parsing obtain a derivation we could use to resolve dependencies, thus proving the semantic property. We use an in-house developed pseudo lexical TAG chart parser; algorithm given by Schabes and Joshi (1988), for generating derivations of sentences. We do not use any statistics to rank out ambiguous derivations but rather use all of them to understand the mentioned semantic relation with in TAGs for Tamil. We shall also present a brief parser analysis for the completeness of our discussions.

研究动机与目标

  • 解决使用形式语法框架建模泰米尔语黏附性词形变化和复杂论元结构的挑战。
  • 探究树附着语法(TAGs)是否能有效表示泰米尔语句法并支持语义推理。
  • 开发并应用一种伪词法TAG图表解析器,用于解析泰米尔语句子并生成推导。
  • 证明可通过TAG推导出的依赖解析挖掘泰米尔语中的语义关系。
  • 对解析器进行完备性分析,以验证所提方法的鲁棒性。

提出的方法

  • 本研究采用基于Schabes和Joshi(1988)算法的自研伪词法TAG图表解析器,用于解析泰米尔语句子。
  • 推导过程不使用统计排序,保留所有歧义推导,以探索语义关系。
  • 在推导出的树结构上执行依赖解析,以识别句法与语义依赖关系。
  • 该方法依赖TAG固有的形式化机制,以建模泰米尔语的黏附性词形变化和非配置性词序。
  • 对所有推导进行分析,以提取语义关系,避免使用启发式或统计剪枝。
  • 评估解析器的完备性,以确保方法在语义挖掘中的可靠性与覆盖范围。

实验结果

研究问题

  • RQ1树附着语法(TAGs)能否有效建模泰米尔语的句法与形态复杂性,包括其黏附性词形变化和论元结构?
  • RQ2在TAG推导出的推导中进行依赖解析,在多大程度上能支持泰米尔语的语义挖掘?
  • RQ3在推导选择中不使用统计排序,对识别泰米尔语句子中的语义关系有何影响?
  • RQ4自研TAG图表解析器在处理多样化泰米尔语句子结构方面的完备性如何?
  • RQ5TAG中对完整推导的探索能否揭示通过简单形式化无法获得的有意义语义关系?

主要发现

  • 所提出的基于TAG的方法成功建模了泰米尔语的复杂句法与形态,包括黏附性构词与非标准词序。
  • 在TAG推导出的推导中进行依赖解析,可实现语义关系的提取,证明了其在泰米尔语语义挖掘中的潜力。
  • 通过使用所有推导(不进行统计排序),能够全面探索歧义句子中的句法与语义替代方案。
  • 解析器具备足够的完备性,可支持语义推理,验证了其在语言学分析中的实用性。
  • 本研究证实TAG是捕捉泰米尔语句法结构并支持下游语义处理的可行形式化方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。