QUICK REVIEW

[论文解读] COCO: The Experimental Procedure

Nikolaus Hansen, Tea Tušar|arXiv (Cornell University)|Mar 29, 2016

Numerical Methods and Algorithms参考文献 6被引用 25

一句话总结

本文提出COCO，一种无需预算的实验流程，用于在COCO平台上以标准化设置对黑箱优化算法进行基准测试。该方法定义了一致的初始化、输入处理、终止和重启协议，以确保算法间性能评估的公平性、可复现性和可比性，运行时间以达到目标解质量所需的函数评估次数为准。

ABSTRACT

We present a budget-free experimental setup and procedure for benchmarking numericaloptimization algorithms in a black-box scenario. This procedure can be applied with the COCO benchmarking platform. We describe initialization of and input to the algorithm and touch upon therelevance of termination and restarts.

研究动机与目标

建立一种一致、可复现且公平的实验流程，用于在黑箱环境下对数值优化算法进行基准测试。
通过使基准测试设置无需预算，消除对预设评估预算的依赖，从而支持更长的实验以实现更精确的性能评估。
在测试套件的所有问题中，对算法初始化、输入处理和终止标准进行标准化，以确保可比性。
推广使用独立重启和多起点策略，以提高性能结果的可靠性和可见性，同时不改变核心的运行时性能度量。
提供明确的参数调优指南，禁止使用与函数相关的参数设置，同时鼓励对终止条件进行调优以提升鲁棒性。

提出的方法

定义一种标准化的实验流程，即每个算法在测试套件的每个问题上仅运行一次，且使用相同的初始化、参数和终止标准。
使用COCO平台管理问题实例，包括目标函数、约束、维度和目标f值，并提供一致的接口用于输入和评估。
仅允许算法访问预定义的问题元数据（如维度、目标函数、边界、初始解）和实时评估结果（f值、约束值、目标命中状态）。
将函数评估次数（运行时间）作为主要性能度量，仅在最终目标被命中或满足用户定义的标准时触发终止。
鼓励使用独立重启和多起点策略，采用递增的预算（如k×n，其中k = 3, 10, 30, 100, 300），以提高结果的可靠性和可见性。
通过记录每维的墙钟时间或CPU时间来评估时间复杂度，并以纯随机搜索的基线数据作为比较基准。

实验结果

研究问题

RQ1如何设计一种一致、无需预算的实验流程，以实现黑箱优化算法的公平且可复现的基准测试？
RQ2在优化过程中，应向算法提供哪些输入信息，以确保标准化，同时保持算法对问题特定知识的独立性？
RQ3终止标准和重启策略如何影响黑箱优化中性能评估的可靠性和可见性？
RQ4参数调优（尤其是终止条件）对不同基准问题上算法性能的影响是什么？
RQ5如何在不同维度和计算环境下一致地测量和报告时间复杂度？

主要发现

COCO实验流程实现了无需预算的基准测试，支持更长的实验，从而在不依赖固定评估预算的前提下提高了性能评估的准确性。
独立重启显著提升了性能结果的可靠性和可见性，且未改变基于运行时间的核心性能度量。
终止条件必须进行调优，以确保算法能在基础函数（如bbob套件中的f₁）上达到最终目标，因为默认设置常导致过早或过度终止。
使用一致的初始解和问题元数据（维度、目标函数、边界）可确保算法在不同问题上的初始化标准化，且与函数特定特征无关。
通过记录每维的墙钟时间并按函数评估次数进行归一化，可可靠地测量时间复杂度，且可利用纯随机搜索的基线数据进行比较。
该流程支持单目标和多目标优化，对约束和目标值的处理保持一致，并已完全集成到COCO基准测试平台中，支持自动化数据收集和后处理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。