QUICK REVIEW

[论文解读] The Multiple Facets of Software Diversity: Recent Developments in Year 2000 and Beyond

Benoît Baudry, Martin Monperrus|arXiv (Cornell University)|Sep 25, 2014

Software Reliability and Analysis Research参考文献 112被引用 62

一句话总结

本文全面、系统地回顾了2000年至今的软件多样性研究，整合了容错、网络安全、代码自然多样性以及软件产品线工程等多个研究领域。论文提出一个统一框架，将多样性划分为受控、自动化和自然三种形式，揭示出自然多样性——源于开发实践与代码复用——在系统韧性与安全性中发挥关键作用，实证研究表明真实代码库中存在高度冗余与功能等价性。

ABSTRACT

Early experiments with software diversity in the mid 1970's investigated N-version programming and recovery blocks to increase the reliability of embedded systems. Four decades later, the literature about software diversity has expanded in multiple directions: goals (fault-tolerance, security, software engineering); means (managed or automated diversity) and analytical studies (quantification of diversity and its impact). Our paper contributes to the field of software diversity as the first paper that adopts an inclusive vision of the area, with an emphasis on the most recent advances in the field. This survey includes classical work about design and data diversity for fault tolerance, as well as the cybersecurity literature that investigates randomization at different system levels. It broadens this standard scope of diversity, to include the study and exploitation of natural diversity and the management of diverse software products. Our survey includes the most recent works, with an emphasis from 2000 to present. The targeted audience is researchers and practitioners in one of the surveyed fields, who miss the big picture of software diversity. Assembling the multiple facets of this fascinating topic sheds a new light on the field.

研究动机与目标

为多个常呈碎片化的研究社区提供一个统一、包容的软件多样性全景视图。
通过将容错、网络安全、软件工程与编程语言等领域的概念统一于软件多样性这一总体框架下，弥合这些研究群体之间的鸿沟。
突出展示自2000年以来在自动化与自然多样性方面的最新进展，这些内容在以往综述中常被忽视。
证明自然多样性——源于开发实践与代码复用——可作为构建高韧性与高安全性系统的重要可利用资源。
通过识别驱动软件系统中多样性涌现的原理，为未来开放式的软件多样化研究奠定基础。

提出的方法

从多个维度系统分类软件多样性：目标（如容错、安全）、尺度（如代码、操作系统、网络）和形式（如设计、执行、自然）。
沿两个主要轴线组织综述：工程化（受控与自动化多样性）与观察性（自然多样性作为研究对象）。
采用多样性类型的分类体系，包括N版本编程、随机化技术（如ASLR、编译器级随机化），以及代码与开发人员行为中的自然多样性。
应用统计与数据挖掘技术分析大规模代码库（如Linux内核，4.2亿行代码），以检测功能等价性与使用多样性。
引入基于熵的度量方法，量化开源项目中开发人员贡献模式（如专注度与所有权）中的多样性。
综合分析6000个Web服务器组件的漏洞数据，评估自然多样性对漏洞利用抵抗能力的影响。

实验结果

研究问题

RQ1如何在目标、尺度与形式等多个维度上系统化地对软件多样性进行分类，以统一分散的研究社区？
RQ2源代码中的自然多样性（如功能等价性与使用差异）在多大程度上促进系统韧性与安全性？
RQ3大规模软件系统中自然多样的经验属性是什么？其与人工工程化多样性的对比如何？
RQ4基于熵的度量方法如何量化开发人员贡献模式中的多样性？其对软件质量的预测能力如何？
RQ5驱动软件系统中多样性涌现的原理是什么？这些原理能否被工程化，以实现开放式的、自维持的多样化？

主要发现

软件中的自然多样性普遍存在：对4.2亿行代码的分析显示，代码序列在长达40个标记以内存在显著冗余，超过该阈值后唯一性逐渐增加。
功能等价性普遍存在：在Linux内核2.6.24中，大量语法上不同的代码片段在随机测试输入下产生相同输出，表明存在隐藏冗余。
面向对象API的使用多样性极高：仅Java的String类在数十万个类中就表现出2,460种不同的方法使用模式。
现成组件在漏洞方面表现出自然多样性：在2007年6000个漏洞中，没有单一利用方式能破坏所有组件，证明了多版本系统的韧性。
开发人员贡献多样性与软件质量相关：专注的开发人员引入的缺陷更少，而多贡献者参与的工件缺陷更多，表明存在复杂的权衡关系。
开源项目中的自然多样性高且可度量：针对专注度与所有权的熵度量对缺陷率具有强预测能力，表明多样性既可观测又可分析。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。