Skip to main content
QUICK REVIEW

[论文解读] Learning string edit distance

Eric Sven Ristad, P.N. Yianilos|ArXiv.org|Oct 29, 1996
Algorithms and Data Compression参考文献 24被引用 27
一句话总结

本文提出一种基于语料库中示例字符串对的随机模型,用于学习字符串编辑距离,从而实现编辑代价的自动优化。通过将字符串转换建模为概率转导,并采用EM学习方法,该方法在Switchboard语料库的发音建模任务中,相比未经训练的Levenshtein距离,错误率降低了75%。

ABSTRACT

In many applications, it is necessary to determine the similarity of two strings. A widely-used notion of string similarity is the edit distance: the minimum number of insertions, deletions, and substitutions required to transform one string into the other. In this report, we provide a stochastic model for string edit distance. Our stochastic model allows us to learn a string edit distance function from a corpus of examples. We illustrate the utility of our approach by applying it to the difficult problem of learning the pronunciation of words in conversational speech. In this application, we learn a string edit distance with one fourth the error rate of the untrained Levenshtein distance. Our approach is applicable to any string classification problem that may be solved using a similarity function against a database of labeled prototypes. Keywords: string edit distance, Levenshtein distance, stochastic transduction, syntactic pattern recognition, prototype dictionary, spelling correction, string correction, string similarity, string classification, speech recognition, pronunciation modeling, Switchboard corpus.

研究动机与目标

  • 开发一种从字符串对语料库中自动学习字符串编辑距离的方法,以克服固定代价编辑距离的局限性。
  • 解决在对话式语音中建模发音变异的挑战,因为标准编辑距离由于语音转写不一致而失效。
  • 通过学习适应训练语料统计特性的距离函数,提升字符串分类性能。
  • 通过将其应用于实际的语音识别任务,展示随机建模在模式识别中的实用性。
  • 证明通过数据联合学习词和词典条目概率,可显著提高识别准确率,优于固定或均匀模型。

提出的方法

  • 使用编辑操作(替换、删除、插入和终止)上的概率函数δ,将字符串编辑距离建模为无记忆的随机转导。
  • 通过公式 p(x^t, y^v, w | L) = p(w|L) * p(x^t|w,L) * p(y^v|x^t,L) 建立对潜在字符串(x^t)、表面字符串(y^v)和词标识(w)的联合概率模型。
  • 应用期望最大化(EM)算法,从训练语料库中联合估计词模型p(w|L)、词典条目模型p(x^t|w,L)和表面模型p(y^v|x^t,L)的参数。
  • 在推理过程中使用Viterbi算法解码给定表面字符串的最可能潜在字符串,从而实现字符串分类。
  • 通过最大化观测字符串对在随机转导模型下的似然性来学习编辑代价,代价参数由EM优化后的概率推导得出。
  • 通过附录B中的替代公式对模型进行长度条件化,提升在长度敏感应用中的性能。

实验结果

研究问题

  • RQ1随机模型能否直接从示例字符串对语料库中学习到有意义的字符串编辑距离,而无需人工编码代价?
  • RQ2联合学习词模型和词典条目模型的概率在噪声或可变字符串数据中的字符串分类准确率方面有何提升?
  • RQ3在实际应用(如语音识别)中,学习到的随机编辑距离在多大程度上优于标准Levenshtein距离?
  • RQ4与固定或有限范围模型相比,通过隐藏潜在字符串建模表面形式中的非局部依赖关系有何影响?
  • RQ5多个概率模型(词、词典条目、表面)的协同自适应是否优于单独自适应,从而实现更优性能?

主要发现

  • 在Switchboard发音识别任务中,所学习的随机编辑距离相比未经训练的Levenshtein距离,错误率降低了75%。
  • 联合调整词模型p(w|L)和词典条目模型p(x^t|w,L)产生协同改进效果,相比固定模型,错误率降低五至六倍。
  • 仅调整词模型可使错误率减半,仅调整词典条目模型同样可使错误率减半,但两者的结合带来的改进远超预期。
  • 对于实验E3,当两个模型均被调整时,错误率从Levenshtein的61.87%降至14.28%,证明了联合学习框架的有效性。
  • 该模型在识别对话式语音中未见的语法词发音时,准确率超过85%,显著优于基线方法。
  • 该方法可构建更丰富、数据驱动的发音词典,能够捕捉非局部依赖关系和可变发音,优于传统手工构建或有限状态模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。