Skip to main content
QUICK REVIEW

[论文解读] A Pattern Matching method for finding Noun and Proper Noun Translations from Noisy Parallel Corpora

Pascale Fung|ArXiv.org|May 6, 1995
Natural Language Processing Techniques被引用 90
一句话总结

本文提出一种模式匹配方法,通过使用位置和频率向量表示,从噪声大且未对齐的双语语料库中编译名词和专有名词的双语词典。通过将动态时间规整(DTW)应用于匹配词位向量,并利用锚点进行二次词典优化,该方法在主词典中达到71.4%的精确率,在次级词典中达到74.5%,实现了无需句子对齐即可稳健提取领域特定术语。

ABSTRACT

We present a pattern matching method for compiling a bilingual lexicon of nouns and proper nouns from unaligned, noisy parallel texts of Asian/Indo-European language pairs. Tagging information of one language is used. Word frequency and position information for high and low frequency words are represented in two different vector forms for pattern matching. New anchor point finding and noise elimination techniques are introduced. We obtained a 73.1\% precision. We also show how the results can be used in the compilation of domain-specific noun phrases.

研究动机与目标

  • 开发一种无需依赖句子对齐即可编译名词和专有名词双语词典的方法。
  • 解决亚洲语系与印欧语系语言对中常见的噪声大、不连续的平行文本带来的挑战。
  • 在低资源环境下提升词典编译的准确性,尤其当领域特定术语未出现在标准词典中时。
  • 通过基于向量的模式匹配发现复合词和习语搭配。
  • 通过生成可靠的锚点,为基于EM的对齐方法提供稳健的初始化。

提出的方法

  • 对英文名词和专有名词进行标注,以限制匹配仅限于相关词类。
  • 从文本中词的位置构建位置差异向量,以表示频率和位置模式。
  • 使用动态时间规整(DTW)匹配英文与中文词之间的位置向量,评估相似性。
  • 对DTW得分应用阈值,提取高置信度的主双语词典词对。
  • 重构DTW路径,以识别用于二次对齐的可靠锚点。
  • 从锚点生成二值位置向量,并通过互信息匹配,编译出次级、更高精确率的词典。

实验结果

研究问题

  • RQ1在未对齐且噪声大的平行语料库中,基于位置和频率向量的模式匹配能否有效识别双语词对?
  • RQ2如何从初始词对中提取可靠的锚点以支持二次词典编译?
  • RQ3该方法在多大程度上能发现标准分词器未能捕捉的复合词和习语搭配?
  • RQ4在低资源、噪声大的环境下,该方法能否优于传统依赖对齐的方法?
  • RQ5该方法的输出能否作为基于EM的对齐算法的强初始化?

主要发现

  • 主双语词典的精确率达到71.4%,高频词为66.7%,次级词典编译达到74.5%。
  • 该方法成功识别出复合词如“carbon monoxide”在中文中为单一词汇,避免了错误分词。
  • 它检测到文化及地区性术语如“gweilo”和“Green Paper”为多字复合词,体现了语言细微差别。
  • 该算法发现“Legislative Council”和“Hong Kong”在中文中为单一复合词,而非分别翻译。
  • 它识别出“Cross Harbour Tunnel”被正确翻译为单一术语,而非“Sea Bottom Tunnel”,展示了语义感知能力。
  • 该方法绕过了句子对齐的需求,即使在缺乏清晰句子边界的条件下,也能生成可靠的锚点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。