Skip to main content
QUICK REVIEW

[论文解读] Comlex Syntax: Building a Computational Lexicon

Ralph Grishman, Catherine Macleod|ArXiv.org|Nov 10, 1994
Speech and dialogue systems被引用 45
一句话总结

Comlex Syntax 建立了一套详尽的、理论中立的计算词典,包含约 38,000 个英语核心词,涵盖丰富的句法特征,包括细粒度的子句类型和控制类型(主语、宾语、任意、变量)。它采用类似 Lisp 的嵌套特征-值表示法,并通过双重标注、语料库扩展和错误分析验证准确性,在关键情况下仅遗漏 1% 的补语。

ABSTRACT

We describe the design of Comlex Syntax, a computational lexicon providing detailed syntactic information for approximately 38,000 English headwords. We consider the types of errors which arise in creating such a lexicon, and how such errors can be measured and controlled.

研究动机与目标

  • 开发一个中等覆盖范围、计算可用的词典,为英语词汇提供丰富的句法特征。
  • 提供超越商业词典(如 OALD 和 LDOCE)的详细子句信息。
  • 通过双重标注和基于语料库的验证,最小化特征分配中的错误。
  • 通过提供理论中立、可扩展的特征表示,支持多种自然语言处理系统。

提出的方法

  • 使用类似 Lisp 的括号列表表示法,编码每个词目的嵌套特征-值对。
  • 通过类型化特征结构表示句法特征,包括子句化(subc)和语法功能(gs)框架。
  • 通过成分结构(cs)、语法结构(gs)、特征和例句定义句法框架。
  • 在子句化框架中包含四种控制类型——主语、宾语、变量和任意控制。
  • 通过多名标注员独立处理高频动词并比较结果,验证准确性。
  • 扩展训练语料库,纳入多样文本类型(如报纸、科技摘要、文学作品),以提升特征泛化能力。

实验结果

研究问题

  • RQ1计算词典如何在英语词汇的子句化和控制特征标注中实现高完整性?
  • RQ2人工特征标注过程中常见的错误类型是什么?如何衡量和控制这些错误?
  • RQ3基于语料库的示例在多大程度上能提高对罕见或歧义词的特征分配可靠性?
  • RQ4Comlex Syntax 中的特征集与商业词典(如 OALD 和 LDOCE)在细节和覆盖范围上如何比较?
  • RQ5理论中立的特征表示能否在保持高准确性的同时,支持多种自然语言处理应用?

主要发现

  • 该词典包含约 38,000 个核心词,具有详细的句法特征,动词有 15 种子句特征,形容词有 14 种,名词有 4 种。
  • 在关键情况下仅遗漏 1% 的补语,且仅在一个实例中影响了句子解析能力。
  • 错误分析显示,8% 的特征被遗漏,1% 的特征为多余,且在 'j' 动词族中,虚假特征出现在 2–6% 的条目中。
  • 模糊特征(即可接受性依赖于语境)较为常见,尤其在形容词如 'dead' 的比较结构中。
  • 语料库扩展策略(包括 Brown 语料库及其他来源)提高了特征可靠性,并支持未来的标注工作。
  • 计划对 Brown 语料库进行初步标注,以与 WordNet 词义标注相关联,目标是每类动词至少包含 250 个实例。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。