Skip to main content
QUICK REVIEW

[论文解读] SemFuzz: A Semantics-Aware Fuzzing Framework for Network Protocol Implementations

Yanbang Sun, Quan Luo|arXiv (Cornell University)|Mar 6, 2026
Software Testing and Debugging Techniques被引用 0
一句话总结

SemFuzz 使用大模型 (LLMs) 提取 RFC 语义并执行面向意图、语义感知的模糊测试,以检测协议实现中的深层语义漏洞;在7个目标中发现了10个真实漏洞(4个 CVE)。

ABSTRACT

Network protocols are the foundation of modern communication, yet their implementations often contain semantic vulnerabilities stemming from inadequate understanding of specification semantics. Existing gray-box and black-box testing approaches lack semantic modeling of protocols, making it difficult to precisely express testing intent and cover boundary conditions. Moreover, they typically rely on coarse-grained oracles such as crashes, which are inadequate for identifying deep semantic vulnerabilities. To address these limitations, we present a semantics-aware fuzzing framework, SemFuzz. The framework leverages large language models to extract structured semantic rules from RFC documents and generates test cases that intentionally violate these rules to encode specific testing intents. It then detects deep semantic vulnerabilities by comparing the observed responses with the expected ones. Evaluation on seven widely deployed protocol implementations shows that SemFuzz identified sixteen potential vulnerabilities, ten of which have been confirmed. Among the confirmed vulnerabilities, five were previously unknown and four have been assigned CVEs. These results demonstrate the effectiveness of SemFuzz in detecting semantic vulnerabilities.

研究动机与目标

  • 解决因规范语义理解有限而导致的协议实现中的语义漏洞。
  • 利用大语言模型从 RFC 中提取结构化的语义规则。
  • 实现面向意图的变异和精确的语义预言机以进行稳健测试。
  • 在多种协议实现上评估 SemFuzz,并与现有基线方法进行比较。

提出的方法

  • 使用 Wireshark 收集真实世界的流量种子以构造种子消息。
  • 使用基于 LLM 的语义规则构造器将 RFC 段落转化为结构化语义规则(p, m, f, C, P)。
  • 生成违反构造约束的变异策略(M)并指定预期响应(e)。
  • 通过确定性变异引擎对种子应用原子操作(增加、删除、更新)生成测试用例。
  • 通过与实际响应对比的语义预言机验证响应,以进行漏洞检测。

实验结果

研究问题

  • RQ1基于 LLM 的语义建模在从 RFC 提取协议语义方面有多有效?
  • RQ2与现有方法在各种协议中的漏洞检测表现相比,SemFuzz 如何?
  • RQ3SemFuzz 各模块对总体模糊测试效果的贡献是什么?
  • RQ4底层 LLM 的选择如何影响 SemFuzz 的性能?

主要发现

  • 语义建模在 R 提取上达到平均 F1 0.84、对 SR 转换的 F1 0.80;下游的变异/测试用例生成准确率分别平均为 0.92 和 0.87。
  • SemFuzz 在七个目标中识别出16个潜在漏洞,确认为真实漏洞的有10个,4个 CVE(其中5个 ранее 未知)。
  • 与基线相比,SemFuzz 发现的漏洞更多(最佳基线为5个)。
  • 消融分析表明,规格识别模块提升语义规则质量,动作生成模块显著提升测试用例质量(平均准确率 87%)。
  • TLS 1.3 的测试用例生成准确率为 0.79,其他协议均达到或超过 0.90 的准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。