QUICK REVIEW

[論文レビュー] Meta Context Engineering via Agentic Skill Evolution

Haoran Ye, Xuning He|arXiv (Cornell University)|Jan 29, 2026

Context-Aware Activity Recognition Systems被引用数 0

ひとこと要約

論文は Meta Context Engineering (MCE) を提案する。これはメタレベルのエージェントが文脈設計スキルを進化させ、ベースレベルのエージェントがプログラム可能なアーティファクトとして文脈を最適化する二層フレームワークであり、複数の領域で最新の CE 手法を超える顕著な改善を達成する。

ABSTRACT

The operational efficacy of large language models relies heavily on their inference-time context. This has established Context Engineering (CE) as a formal discipline for optimizing these inputs. Current CE methods rely on manually crafted harnesses, such as rigid generation-reflection workflows and predefined context schemas. They impose structural biases and restrict context optimization to a narrow, intuition-bound design space. To address this, we introduce Meta Context Engineering (MCE), a bi-level framework that supersedes static CE heuristics by co-evolving CE skills and context artifacts. In MCE iterations, a meta-level agent refines engineering skills via agentic crossover, a deliberative search over the history of skills, their executions, and evaluations. A base-level agent executes these skills, learns from training rollouts, and optimizes context as flexible files and code. We evaluate MCE across five disparate domains under offline and online settings. MCE demonstrates consistent performance gains, achieving 5.6--53.8% relative improvement over state-of-the-art agentic CE methods (mean of 16.9%), while maintaining superior context adaptability, transferability, and efficiency in both context usage and training.

研究の動機と目的

LLMs で手作業のハーネスを超える学習ベースの文脈設計の必要性を動機づける。
エージェント的クロスオーバーを介して CE スキルと文脈アーティファクトを共進化させる二層フレームワークを提案する。
コーディングツールキットとファイルシステムアクセスを活用して、完全にエージェント主導のベースレベル文脈最適化を実現する。
多様な領域で MCE を評価し、オフラインおよびオンライン設定で SOTA CE 手法に対する利得を示す。

提案手法

CE を、問い合わせを (rho, F) のタプルへ写像する文脈関数 c を用いた二層最適化問題として正式化する。
メタレベルでエージェント的スキル進化を導入し、メタエージェントが過去のスキルの履歴をクロスオーバーして新しいスキル s_k を生成する。
ベースレベルのエージェントがスキル s_k を実行して workspace との相互作用とトレーニングロールアウトを通じて文脈関数 c_k を生成する。
スキルを、方法論、スクリプト、テンプレート、検証プロトコル、動的文脈演算子を含むフォルダとして表現する。
単純な (1+1)-Evolution Strategy を用いて、スキルの進化と文脈の更新を交互に実行し、訓練/検証性能に導かれる。

実験結果

リサーチクエスチョン

RQ1CE スキルと文脈アーティファクトを共進化させることで、静的な CE ヒューリスティクスを超える領域横断の性能を発揮できるか？
RQ2エージェント的スキルは適応的なタスク固有の文脈表現と転送性の改善を可能にするか？
RQ3MCE は ACE や他のベースラインと比較して学習効率と文脈活用を改善するか？
RQ4MCE で学習した文脈は強力なモデルから弱いモデルへどれだけ転用可能か？
RQ5完全にエージェント主導の文脈最適化は領域適応と効率にどのような影響を与えるか？

主な発見

Method	FiNER Acc.% ↑	USPTO50k Acc.% ↑	Symptom2Disease Acc.% ↑	LawBench Micro-F1 ↑	Aegis2.0 F1 ↑	Avg. Rel. Gain % ↑
Base Model	58.0	6.0	63.7	0.36	0.54	–
Offline Setting - ICL	64.0 (+6.0)	9.0 (+3.0)	84.4 (+20.7)	0.57 (+.21)	0.59 (+.05)	32.1
Offline Setting - MIPROv2	69.0 (+11.0)	14.0 (+8.0)	73.1 (+9.4)	0.60 (+.24)	0.59 (+.05)	48.6
Offline Setting - GEPA	66.0 (+8.0)	15.0 (+9.0)	70.8 (+7.1)	0.69 (+.33)	0.76 (+.22)	61.5
Offline Setting - ACE	71.0 (+13.0)	18.0 (+12.0)	79.2 (+15.5)	0.65 (+.29)	0.68 (+.14)	70.7
Offline Setting - MCE	75.0 (+17.0)	20.0 (+14.0)	89.2 (+25.5)	0.70 (+.34)	0.80 (+.26)	89.1
Online Setting - DC	61.0 (+3.0)	14.0 (+8.0)	73.1 (+9.4)	0.46 (+.10)	0.53 (-.01)	35.8
Online Setting - ACE	64.0 (+6.0)	13.0 (+7.0)	62.3 (-1.4)	0.63 (+.27)	0.57 (+.03)	41.1
Online Setting - MCE (w/o skills)	67.0 (+9.0)	18.0 (+12.0)	76.9 (+13.2)	0.70 (+.34)	0.68 (+.14)	71.3
Online Setting - MCE	68.0 (+10.0)	20.0 (+14.0)	76.4 (+12.7)	0.66 (+.30)	0.63 (+.09)	74.1

MCE は offline/online 設定で SOTA CE 手法に対して相対的に 5.6%–53.8% の改善を達成（平均 16.9%）し、5つの領域で示した。
オフライン実験で base DeepSeek-V3.1 モデルに対して平均 89.1% の相対改善、オンラインで 74.1% の改善を示し、ACE を上回った。
文脈長はタスク要件に応じて適応（タスク間で 1.5K 〜 86K トークン）、一定の短さ/冗長性バイアスを回避。
MCE は文脈効率を向上させ、ACE より少ないトークンで高精度を達成。
学習効率は最大で 13.6× 高速化し、ACE と比べて類似または高い精度へ到達するためのロールアウト回数が 4.8× 少なくて済む。
MCE で学習した文脈は ACE より弱いモデルへの転送で、より堅牢に機能する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。