[论文解读] The Exact String Matching Problem: a Comprehensive Experimental Evaluation
本文对85种精确字符串匹配算法在不同模式长度和字符集大小下的表现进行了全面的实验评估。研究识别出在特定条件下最高效的算法,例如在极短模式下使用TVSBS算法,在极长模式下使用SSEF算法,性能高度依赖于模式长度和字符集大小。
This paper addresses the online exact string matching problem which consists in finding all occurrences of a given pattern p in a text t. It is an extensively studied problem in computer science, mainly due to its direct applications to such diverse areas as text, image and signal processing, speech analysis and recognition, data compression, information retrieval, computational biology and chemistry. Since 1970 more than 80 string matching algorithms have been proposed, and more than 50% of them in the last ten years. In this note we present a comprehensive list of all string matching algorithms and present experimental results in order to compare them from a practical point of view. From our experimental evaluation it turns out that the performance of the algorithms are quite different for different alphabet sizes and pattern length.
研究动机与目标
- 提供1970年至2010年间提出的已知所有精确字符串匹配算法的完整且系统的比较。
- 在不同条件下评估基于比较、基于自动机和基于位并行的字符串匹配算法的实际性能。
- 识别出在不同模式长度和字符集大小组合下的最高效算法。
- 为实际应用中选择最优字符串匹配算法提供实用指导。
- 通过大量实验分析模式长度和字符集大小对算法效率的影响。
提出的方法
- 作者实现了85种精确字符串匹配算法,包括基于比较的(如KMP、Boyer-Moore)、基于自动机的(如BOM、EBOM)和基于位并行的(如BNDM、SBNDM)变体。
- 在12种不同的文本类型上进行了实验,以评估不同数据特征下的性能表现。
- 算法在四个模式长度类别中进行评估:极短(m ≤ 4)、短(4 < m ≤ 32)、长(32 < m ≤ 256)和极长(m > 256)。
- 字符集大小分为四类:极小(σ < 4)、小(4 ≤ σ < 32)、大(32 ≤ σ < 128)和极大(σ > 128)。
- 性能通过每文本字符的平均字符比较次数衡量,并在所有测试案例中进行归一化。
- 评估采用标准化的实验框架,以确保所有算法之间比较的公平性和可复现性。
实验结果
研究问题
- RQ1在不同字符集大小下,哪种字符串匹配算法在极短模式(m ≤ 4)下表现最佳?
- RQ2算法性能如何随模式长度和字符集大小的增加而变化?
- RQ3哪些算法在所有模式长度和字符集大小组合下均保持高效率?
- RQ4在不同条件下,基于位并行、基于自动机和基于比较的算法的相对性能如何?
- RQ5是否存在特定算法配置(如使用q-grams或循环展开)能显著提升长模式或极长模式下的性能?
主要发现
- 对于极短模式(m ≤ 4)且字符集极小时(σ < 4),SA算法表现最佳。
- 当字符集较小时,TVSBS算法在极短模式下速度最快,且在大字符集(σ ≥ 32)下对长模式也表现最佳。
- 对于极短模式且字符集大或极大时,FJS算法表现最优。
- 对于短模式(4 < m ≤ 32),EBOM算法在大和极大字符集下最高效;而SBNDM-BMH和BMH-SBNDM在极大字符集下表现最优。
- 对于长模式(32 < m ≤ 256),HASH $q$ 算法在小字符集下表现最佳,而FSBNDM在大和极大字符集下表现卓越。
- 对于极长模式(m > 256),SSEF算法性能最优,尽管FSBNDM在某些情况下表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。