[论文解读] Contrastive Concept-Tree Search for LLM-Assisted Algorithm Discovery
论文提出 Contrastive Concept-Tree Search (CCTS),是一种语义的、对比引导的方法,从生成的算法中学习层次化概念树,以引导LLM辅助的搜索朝向有用的概念组合、避免有害概念,从而提高效率和可解释性。
Large language Model (LLM)-assisted algorithm discovery is an iterative, black-box optimization process over programs to approximatively solve a target task, where an LLM proposes candidate programs and an external evaluator provides task feedback. Despite intense recent research on the topic and promising results, how can the LLM internal representation of the space of possible programs be maximally exploited to improve performance is an open question. Here, we introduce Contrastive Concept-Tree Search (CCTS), which extracts a hierarchical concept representation from the generated programs and learns a contrastive concept model that guides parent selection. By reweighting parents using a likelihood-ratio score between high- and low-performing solutions, CCTS biases search toward useful concept combinations and away from misleading ones, providing guidance through an explicit concept hierarchy rather than the algorithm lineage constructed by the LLM. We show that CCTS improves search efficiency over fitness-based baselines and produces interpretable, task-specific concept trees across a benchmark of open Erdős-type combinatorics problems. Our analysis indicates that the gains are driven largely by learning which concepts to avoid. We further validate these findings in a controlled synthetic algorithm-discovery environment, which reproduces qualitatively the search dynamics observed with the LLMs.
研究动机与目标
- 通过利用有结构的语义概念而非单纯的适应度,激励对算法空间的改进探索。
- 开发一个对比、基于概念的模型,以偏向父节点选择 toward 有益的概念组合。
- 在 Erdős 风格组合问题上演示可解释性与任务特定概念树。
- 展示 CCTS 在真实的 LLM 驱动与合成算法发现环境中的鲁棒性与动态性。
提出的方法
- 定义一个分层概念空间,其中每个节点是一个语义概念,边编码细化;概念以祖先闭合的二进制向量 b 激活。
- 使用对比交叉熵更新来学习两个概念分布 p_eta+(b) 与 p_eta−(b)(针对优秀与较差的执行者),并计算似然比权重 w(b) 以偏向父节点选择。
- 用树结构的Parzen估计器(TPE)式、叶节点受限、分层模型来表示概念效用,高效且可解释。
- 通过将叶子概念注入提示来引导子节点生成,并维持一个概念探索机制,促进新颖/罕见概念的探索。
- 维持包含已评估程序及其特征的档案 A_t 的进化循环,并将探索(均匀)与开发(概念引导或其他策略)混合。
- 在 Erdős 风格问题(圆 packing、 Heilbronn 三角形、 Arithmetic Kakeya、square-in-square)基准以及一个合成发现环境中进行实验,以验证动力学与概念效用学习。

实验结果
研究问题
- RQ1显式学习语义概念层次结构是否比仅靠适应度选择在提升LLM辅助算法发现的效率与质量方面更优?
- RQ2对比性、基于概念的统计是否能识别需要避免的概念,成为性能提升的主要驱动?
- RQ3学习到的概念效用与真实搜索动态和合成搜索动态之间有何关系,及其对探索-开发平衡的影响?
- RQ4对于 Erdős 风格的组合问题,会出现哪些可解释、任务特定的概念树?
- RQ5CCTS 对不同问题设置和LLM配置的鲁棒性如何?
主要发现
- CCTS 在真实与合成设置的多任务多轮次中,均显著提升了最佳分数相对于基线方法。
- 提升主要来自于学习应避免的概念(负概念),而不仅仅是识别高度有用的概念。
- 从LLM提取的概念树反映了问题结构,揭示圆 packing 与 Heilbronn 三角形任务中的分层、可解释的语义组件。
- 一个合成教师树模型与基于LLM的结果在定性上一致,且学习到的概念权重与潜在概念效用相关。
- 最优的开发概率 p_exploit 会因任务而异,表明潜在概念树结构影响搜索动态。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。