[论文解读] IIsy: Practical In-Network Classification
IIsy 将一系列传统与集成 ML 分类器映射到现成的可编程交换机,以实现就地网络分类,包括一个在网络中运行的小型模型和一个较大的后端模型的混合模型。
The rat race between user-generated data and data-processing systems is currently won by data. The increased use of machine learning leads to further increase in processing requirements, while data volume keeps growing. To win the race, machine learning needs to be applied to the data as it goes through the network. In-network classification of data can reduce the load on servers, reduce response time and increase scalability. In this paper, we introduce IIsy, implementing machine learning classification models in a hybrid fashion using off-the-shelf network devices. IIsy targets three main challenges of in-network classification: (i) mapping classification models to network devices (ii) extracting the required features and (iii) addressing resource and functionality constraints. IIsy supports a range of traditional and ensemble machine learning models, scaling independently of the number of stages in a switch pipeline. Moreover, we demonstrate the use of IIsy for hybrid classification, where a small model is implemented on a switch and a large model at the backend, achieving near optimal classification results, while significantly reducing latency and load on the servers.
研究动机与目标
- 在网络中直接激励并实现机器学习分类,以降低服务器负载和延迟。
- 提供一个映射框架,将训练好的 ML 模型转换为通用交换机的数据平面和控制平面程序。
- 支持一系列模型(决策树、随机森林、Isolation Forest、XGBoost、SVM、朴素贝叶斯、K-Means),同时避免神经网络。
- 解决网络中的资源约束和特征提取挑战,使就地网络分类成为可行。
- 展示将计算在交换机与后端服务器之间分担的混合部署的有效性。
提出的方法
- 开发一种使用查找表实现数学运算和分类的模型到交换机的映射方法。
- 将流水线深度与模型深度解耦,使交换机阶段数量不随树深度增长。
- 在集成方法中跨树共享特征表,以减少表的增殖。
- 为经典模型(SVM、朴素贝叶斯、K-Means)提供两种方法:逐特征表或逐类别/指示表,以在准确性和资源使用之间取得平衡。
- 通过表更新实现再训练和更新,而不更改已部署的程序,包括混合部署工作流。
- 从标准 ML 训练输出(例如 pickle)自动生成数据平面(P4)和控制平面表项以用于目标设备。
实验结果
研究问题
- RQ1如何在不改变网络协议或工具的情况下,将多种 ML 分类模型高效映射到可编程网络设备上?
- RQ2哪些机制可以实现可扩展的就地网络分类,使模型复杂性与交换机流水线深度解耦?
- RQ3如何在网络设备中跨数据包、流、聚合和文件粒度执行特征提取?
- RQ4混合部署(网络内小模型 + 后端大模型)是否能在降低后端负载和延迟的同时实现接近最优的准确率?
- RQ5用于就地网络模型的实用再训练和更新工作流有哪些,以最小化流量中断?
主要发现
- IIsy 演示了将若干 ML 分类器映射到可编程交换机,包括决策树、随机森林、Isolation Forest、XGBoost、SVM、朴素贝叶斯和 K-Means。
- 一种与管线阶段数量无关的映射方法使在交换机上扩展集成模型成为可能。
- 特征提取在数据包、流、聚合和文件粒度上进行了演示,包括处理跨数据包存储的数据。
- 混合部署在保持对时效任务分类器性能的同时,显示出降低后端负载和更低的分类延迟。
- 再训练可以通过表更新完成,而无需更改已部署的数据平面程序,从而在生产中实现快速模型更新。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。