Skip to main content
QUICK REVIEW

[论文解读] Correctness and Performance for Stateful Chained Network Functions

Junaid Khalid, Aditya Akella|arXiv (Cornell University)|Dec 5, 2016
Software-Defined Networks and 5G被引用 43
一句话总结

CHC 是一种新颖的 NFV 框架,通过将状态外部化至共享内存存储,并利用逻辑时钟和元数据实现一致的状态管理,确保了有状态、动态管理的网络功能(NF)链的端到端正确性(COE)和高性能。它实现了每 NF 9.42Gbps 的吞吐量,延迟开销低于 0.6μs,并能实现快速、正确的故障恢复,同时抑制重复更新。

ABSTRACT

Network functions virtualization (NFV) allows operators to employ NF chains to realize custom policies, and dynamically add instances to meet demand or for failover. NFs maintain detailed per- and cross-flow state which needs careful management, especially during dynamic actions. Crucially, state management must: (1) ensure NF chain-wide correctness and (2) have good performance. To this end, we built ame, an NFV framework that leverages an external state store coupled with state management algorithms and metadata maintenance for correct operation even under a range of failures. Our evaluation shows that CHC can support ~10Gbps per-NF throughput and <0.6mus increase in median per-NF packet processing latency, and chain-wide correctness at little additional cost.

研究动机与目标

  • 解决现有 NFV 框架在管理有状态、动态扩展或故障的 NF 实例时缺乏正确性和性能的问题。
  • 在动态流量重分配、故障和共享状态更新下,确保端到端正确性(COE)。
  • 最小化状态管理带来的性能开销,特别是在故障切换和负载均衡期间。
  • 在保持状态一致性的同时,实现高效、低延迟的 NF、根节点和数据存储故障恢复。
  • 抑制由慢速或故障上游 NF 引起的虚假重复状态更新。

提出的方法

  • CHC 将 NF 状态外部化至内存中持久的外部数据存储,确保故障后状态仍可访问。
  • 它在链路入口引入逻辑时钟,以跟踪数据包顺序,并在分布式 NF 实例之间实现相对排序。
  • 在数据存储和 NF 上维护元数据日志,以跟踪在途数据包和更新操作,从而实现重复抑制和正确恢复。
  • CHC 使用作用域感知的流量分区和状态访问模式感知机制,以最小化跨实例共享状态的协调开销。
  • 它将共享状态更新操作卸载至数据存储,由其对操作进行串行化以保证一致性,从而减少 NF 上的协调开销。
  • 故障恢复协议利用逻辑时钟和操作日志,以与无故障执行完全相同的方式重建状态,确保 COE。

实验结果

研究问题

  • RQ1有状态 NF 链在动态扩展、故障切换和流量重分配下,即使存在共享状态和每流状态,是否仍能保持正确性(COE)?
  • RQ2如何优化状态管理,以在高吞吐量 NF 链中实现接近零的性能开销?
  • RQ3逻辑时钟和元数据日志是否能有效抑制由网络延迟或慢速 NF 引起的重复状态更新?
  • RQ4在保持正确性的前提下,恢复 NF、根节点或数据存储故障的性能开销是多少?
  • RQ5在故障和负载条件下,CHC 与现有框架相比在延迟、吞吐量和一致性保证方面表现如何?

主要发现

  • CHC 实现了每 NF 9.42Gbps 的吞吐量,与独立 NF 的最大吞吐量相当,表明性能损耗极小。
  • 由于状态管理导致的每 NF 数据包处理延迟中位数增加低于 0.6μs,不同工作负载下的范围为 0.02–0.54μs。
  • 在故障切换期间,CHC 的每数据包延迟相比 [28] 降低了 6 倍,且在更新强一致共享状态方面比 [16] 快 99%。
  • CHC 有效抑制了重复数据包和状态更新,使负载为 50% 时的重复更新从 545 次减少至 0 次,彻底消除了误报和漏报。
  • 故障恢复效率高:根节点恢复时间小于 41.2μs,即使在 10 个 NAT 实例下,数据存储恢复时间也 ≤388.2ms,且检查点间隔为 150ms。
  • 在旁路检测器场景中,CHC 成功检测到全部 11 个木马签名,而 OpenNF 因缺乏端到端排序保证,最多会漏掉 11 个签名。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。