QUICK REVIEW

[论文解读] Meta Context Engineering via Agentic Skill Evolution

Haoran Ye, Xuning He|arXiv (Cornell University)|Jan 29, 2026

Context-Aware Activity Recognition Systems被引用 0

一句话总结

论文提出了元上下文工程（MCE），一个双层框架，其中元层代理进化上下文工程技能，基层代理将上下文优化为可编程工件，在跨多个领域的现有CE方法上实现显著提升。

ABSTRACT

The operational efficacy of large language models relies heavily on their inference-time context. This has established Context Engineering (CE) as a formal discipline for optimizing these inputs. Current CE methods rely on manually crafted harnesses, such as rigid generation-reflection workflows and predefined context schemas. They impose structural biases and restrict context optimization to a narrow, intuition-bound design space. To address this, we introduce Meta Context Engineering (MCE), a bi-level framework that supersedes static CE heuristics by co-evolving CE skills and context artifacts. In MCE iterations, a meta-level agent refines engineering skills via agentic crossover, a deliberative search over the history of skills, their executions, and evaluations. A base-level agent executes these skills, learns from training rollouts, and optimizes context as flexible files and code. We evaluate MCE across five disparate domains under offline and online settings. MCE demonstrates consistent performance gains, achieving 5.6--53.8% relative improvement over state-of-the-art agentic CE methods (mean of 16.9%), while maintaining superior context adaptability, transferability, and efficiency in both context usage and training.

研究动机与目标

推动在LLMs中超越手工设计的 harness 的学习型上下文工程的需求。
提出一个双层框架，通过代理交叉演化CE技能和上下文工件。
实现完全代理化的基层上下文优化，利用编码工具包和文件系统访问。
在多样化领域评估MCE，并在离线和在线设置中展示相对于SOTA CE方法的增益。）
method_to_translate_placeholder?

提出的方法

将CE形式化为一个双层优化问题，存在一个上下文函数c，将查询映射到元组(rho, F)。
在元层引入代理技能进化，元代理对技能历史进行交叉以生成新技能s_k。
实例化一个基层代理，通过与工作空间和训练回滚交互执行技能s_k以产生上下文函数c_k。
将技能表示为包含方法、脚本、模板、验证协议和动态上下文算子的文件夹。
使用简单的(1+1)-进化策略，在进化技能和更新上下文之间交替，在训练/验证表现的引导下进行。

实验结果

研究问题

RQ1CE技能与上下文工件共同演化是否能在多领域超越静态CE启发式方法？
RQ2代理技能是否使上下文表示自适应且具任务特异性，并提升可迁移性？
RQ3与ACE及其他基线相比，MCE是否提高了训练效率和上下文利用率？
RQ4从强模型向较弱模型迁移时，MCE学习的上下文表现如何？
RQ5完全代理化的上下文优化对领域自适应和效率有何影响？

主要发现

Method	FiNER Acc.% ↑	USPTO50k Acc.% ↑	Symptom2Disease Acc.% ↑	LawBench Micro-F1 ↑	Aegis2.0 F1 ↑	Avg. Rel. Gain % ↑
Base Model	58.0	6.0	63.7	0.36	0.54	–
Offline Setting - ICL	64.0 (+6.0)	9.0 (+3.0)	84.4 (+20.7)	0.57 (+.21)	0.59 (+.05)	32.1
Offline Setting - MIPROv2	69.0 (+11.0)	14.0 (+8.0)	73.1 (+9.4)	0.60 (+.24)	0.59 (+.05)	48.6
Offline Setting - GEPA	66.0 (+8.0)	15.0 (+9.0)	70.8 (+7.1)	0.69 (+.33)	0.76 (+.22)	61.5
Offline Setting - ACE	71.0 (+13.0)	18.0 (+12.0)	79.2 (+15.5)	0.65 (+.29)	0.68 (+.14)	70.7
Offline Setting - MCE	75.0 (+17.0)	20.0 (+14.0)	89.2 (+25.5)	0.70 (+.34)	0.80 (+.26)	89.1
Online Setting - DC	61.0 (+3.0)	14.0 (+8.0)	73.1 (+9.4)	0.46 (+.10)	0.53 (-.01)	35.8
Online Setting - ACE	64.0 (+6.0)	13.0 (+7.0)	62.3 (-1.4)	0.63 (+.27)	0.57 (+.03)	41.1
Online Setting - MCE (w/o skills)	67.0 (+9.0)	18.0 (+12.0)	76.9 (+13.2)	0.70 (+.34)	0.68 (+.14)	71.3
Online Setting - MCE	68.0 (+10.0)	20.0 (+14.0)	76.4 (+12.7)	0.66 (+.30)	0.63 (+.09)	74.1

MCE在五个领域的离线/在线设置中，相对于SOTA CE方法实现5.6–53.8%的相对提升（平均16.9%）。
在离线实验中，MCE相对于基线DeepSeek-V3.1模型平均提升89.1%，在线提升74.1%，超越ACE。
上下文长度根据任务需求自适应（在1.5K到86K标记之间），避免了固定的简短/冗长偏见。
MCE提供更高的上下文利用效率，用更少的标记获得更高的准确性，优于ACE。
训练效率提高最多可快到ACE的13.6倍，达到类似或更高的准确度所需探索回合更少（4.8倍）。
MCE学习的上下文对较弱模型的迁移更鲁棒，衰减幅度小于ACE。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。