[论文解读] COCO: Performance Assessment
本文提出了 COCO,一种基于达到目标质量水平所需函数评估次数的运行时间的黑箱优化算法性能评估框架。它利用模拟重启、经验分布函数(ECDF)和平均运行时间(aRT),实现对不同基准问题及不同目标精度下算法的定量、可解释性比较——例如,可明确指出某一算法比另一算法‘快七倍’。
We present an any-time performance assessment for benchmarking numerical optimization algorithms in a black-box scenario, applied within the COCO benchmarking platform. The performance assessment is based on runtimes measured in number of objective function evaluations to reach one or several quality indicator target values. We argue that runtime is the only available measure with a generic, meaningful, and quantitative interpretation. We discuss the choice of the target values, runlength-based targets, and the aggregation of results by using simulated restarts, averages, and empirical distribution functions.
研究动机与目标
- 开发一种用于黑箱场景下数值优化算法的定量、可解释且有意义的性能评估方法。
- 通过使用函数评估次数作为硬件和编程语言无关的成本度量,克服基于 CPU 时间的基准测试的局限性。
- 通过基于运行时间的性能度量,实现如‘算法 A 比 B 快七倍’等比较性结论。
- 利用 ECDF 和 aRT 实现对问题实例、目标值和函数类别的聚合。
- 为评估不同特性问题下的优化算法,提供一种标准化、可扩展的基准测试框架。
提出的方法
- 将性能度量为达到预设目标值所需的客观函数评估次数,将其视为主要成本指标。
- 通过模拟重启估计运行时间,避免实际重新执行算法的需要。
- 使用自展法估计多个问题实例和目标值下运行时间的经验分布函数(ECDF)。
- 计算平均运行时间(aRT)作为汇总统计量,表示成功运行时间的几何平均值。
- 对问题子类(如可分、单峰)和所有函数进行聚合,以支持跨算法比较。
- 使用半对数坐标图中的 ECDF 可视化性能,其中水平位移表示倍数级的速度差异。
实验结果
研究问题
- RQ1如何利用函数评估次数的运行时间,实现黑箱优化中具有意义、定量且可解释的性能评估?
- RQ2与 CPU 时间相比,使用函数评估次数进行算法基准测试有何优势?
- RQ3如何在多个问题实例、目标值和函数类别之间有意义地聚合性能?
- RQ4模拟重启和自展法在估计可靠运行时间分布中起什么作用?
- RQ5ECDF 和 aRT 如何用于比较算法,从而支持‘X 比 Y 快七倍’等陈述?
主要发现
- 函数评估次数的运行时间是一种比例尺度、可解释且与硬件无关的度量,可实现如‘快七倍’等定量比较。
- 人工构造的‘最佳 2009’算法(基于每个问题-目标对中表现最佳的算法)在 BBOB-2009 套件上的运行时间比实际算法的最左侧包络线快约两到三倍。
- 在维度 5 时,最佳 2009 算法在约 10^7 × n 次函数评估内解决了所有问题。
- 球函数上纯随机搜索的 ECDF 图显示,近 20% 的问题在 5,000 次函数评估内(10^3 × n)被解决。
- ECDF 图中的十字标记表示未成功运行中所用最大预算的中位数,表明该点之后的运行时间至少包含一次失败试验。
- ECDF 中 x = 10^7 之外的小圆点表示所有试验中成功求解的(函数,目标)对的总体比例。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。