[论文解读] Loghub: A Large Collection of System Log Datasets for AI-driven Log Analytics
Loghub 发布了 19 个真实世界系统日志数据集(约 77 GB),用于AI驱动的日志分析基准测试,并提供日志解析、压缩和异常检测的初步基准。
Logs have been widely adopted in software system development and maintenance because of the rich runtime information they record. In recent years, the increase of software size and complexity leads to the rapid growth of the volume of logs. To handle these large volumes of logs efficiently and effectively, a line of research focuses on developing intelligent and automated log analysis techniques. However, only a few of these techniques have reached successful deployments in industry due to the lack of public log datasets and open benchmarking upon them. To fill this significant gap and facilitate more research on AI-driven log analytics, we have collected and released loghub, a large collection of system log datasets. In particular, loghub provides 19 real-world log datasets collected from a wide range of software systems, including distributed systems, supercomputers, operating systems, mobile systems, server applications, and standalone software. In this paper, we summarize the statistics of these datasets, introduce some practical usage scenarios of the loghub datasets, and present our benchmarking results on loghub to benefit the researchers and practitioners in this field. Up to the time of this paper writing, the loghub datasets have been downloaded for roughly 90,000 times in total by hundreds of organizations from both industry and academia. The loghub datasets are available at https://github.com/logpai/loghub.
研究动机与目标
- 为AI驱动的分析收集并整理大规模、多样化的真实世界系统日志数据集。
- 提供带标签和无标签的数据集,以支持异常检测、解析和其他日志分析任务。
- 描述实际使用场景并建立基准,以连接研究与产业。
- 公开发布数据集,以实现可重复的研究与产业采用。
提出的方法
- 从分布式系统、超级计算机、操作系统、移动系统、服务器应用和独立软件汇集19个日志数据集,总量约77 GB。
- 对每个数据集进行特征描述(时间跨度、行数、大小、标签),并将其分类为带标签或无标签。
- 讨论实际使用场景(例如异常检测、日志解析、日志压缩、重复问题)以及日志可用于每个任务的方法。
- 提供代表性任务的基线基准测试(日志解析、压缩、异常检测),使用标准指标,并分析仍存的挑战。
- 数据集在GitHub上发布,以便社区访问与可重复性。
- 使用解析准确性PA度量,其定义为 PA =(正确解析的日志数)/(日志总数)来评估日志解析器。
实验结果
研究问题
- RQ1现有日志解析方法在多样化日志来源和结构下的泛化能力如何?
- RQ2与通用压缩工具相比,面向日志的专用压缩工具在真实日志上的效果如何?
- RQ3在大规模异质的真实日志集合上,基于日志的异常检测方法的性能如何?
- RQ4在扩展到多样化系统和工作负载时,AI驱动的日志分析还存在哪些实际挑战?
- RQ5Loghub 能否作为一个全面的基准,推动研究向产业采用的发展?
主要发现
- 至少有一个解析器在大多数数据集上达到90%以上的解析准确率,某些数据集由于事件模板较简单而达到完美准确率。
- 在数据集上的平均解析准确率,Drain 在评估的解析器中最高。
- 日志专用压缩(例如使用多种内核的Logzip)在所有测试数据集上均优于通用压缩器,平均比gzip高4.56倍,在某些情况下高达15.1倍。
- 共有6个数据集带标签(支持异常检测和重复问题研究),13个无标签,支持从有监督到无监督分析的多种任务。
- 异常检测基准显示,受标签数据驱动的监督方法(如决策树、SVM)因标签数据而达到较高的召回率/精确度,无监督方法在缺少标签时也能提供有竞争力的结果。
- 这些数据集已被广泛采用(来自工业界和学术界的450多家机构,下载量超过90,000 次),并日益用于教育与研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。