[論文レビュー] Your Code Agent Can Grow Alongside You with Structured Memory
MemCoder は履歴を記憶として構造化し自己精錬を用いることで継続的な人間–AI協演を実現し、SWE-bench Verified で SOTA を達成。DeepSeek-V3.2 の解決率を 77.8% に向上させる。
While "Intent-oriented programming" (or "Vibe Coding") redefines software engineering, existing code agents remain tethered to static code snapshots. Consequently, they struggle to model the critical information embedded in the temporal evolution of projects, failing to leverage the "reasoning trajectories" implicit in past successful practices. This limitation results in rigid behavioral logic and a lack of autonomous adaptability, ultimately hindering their ability to tackle complex, repository-level problems. To bridge this static-dynamic mismatch, we propose MemCoder, a framework designed to enable continual human-AI co-evolution. MemCoder first structures historical human experience to distill latent intent-to-code mappings from past commits. It then employs a self-refinement mechanism driven by verification feedback to correct agent behavior in real-time. Crucially, an experience self-internalization mechanism is introduced to crystallize human-validated solutions into long-term knowledge, thereby supporting sustained evolution. Experimental results on SWE-bench Verified demonstrate that MemCoder not only achieves State-of-the-Art (SOTA) performance but also delivers a 9.4% improvement in resolved rate over the general foundation model DeepSeek-V3.2. These findings indicate that equipping agents with the capability to co-evolve with humans via project history and real-time feedback effectively unlocks the potential of general models in complex software engineering tasks.
研究の動機と目的
- リポジトリレベルのタスクにおける静的コードエージェントの限界と継続的な人間–AI協演の必要性を特定する。
- 履歴的な開発者体験を記憶として構造化し、実行時の refinement と長期的な解法の内部化を可能にする MemCoder を提案する。
- 構造化された記憶とフィードバックを活用することで SWE-bench Verified におけるパフォーマンスを強力なベースラインに対して改善できることを実証する。
- 人間が検証した知識を内部化して、プロジェクトを横断してエージェントの進化を持続させる。
提案手法
- MemCoder を三段階のフレームワークとして導入する: (1) 過去のコミットから記憶エントリとして latent intent-to-code mappings を捕捉する構造化記憶を構築する; (2) Refining Sub-agent を用いたコンテキスト認識型の二段 Retrieval と実行時自己精錬を行う; (3) human-validated な解法を long-term memory に内部化して協演ループを閉じる。
- 経験を memory entries m_i = (o_i, c_i, k_i, p_i, r_i, s_i) として、コミットから distilled された情報を LLM と generator prompt P_gen を用いて表現する。
- 埋め込み記憶上での近傍検索を用いた高速な近似最近傍検索と、最終的な関連性を決定する cross-encoder re-ranking の二段階 Retrieval を用いる。
- p、実行トレース、フィードバック、取得した記憶に基づき、テストコード t と検証チェックリスト l を生成する Refining Sub-agent による動的自己精錬を可能にする。
- f_intern によって検証済みの経験を memory に内部化し、新しい記憶エントリで M を更新し、長期的な知識成長を可能にする。
- GPT-5.2 を backbone として SWE-bench Verified で MemCoder を評価し、DeepSeek-V3.2 での確認を行い、トップ手法と比較し、モジュールの寄与を評価するためのアブレーションを実施する。

実験結果
リサーチクエスチョン
- RQ1MemCoder の構造化された記憶と自己精錬は、リポジトリレベルのコードパッチ生成を静的コードエージェントと比較して改善しますか?
- RQ2記憶の品質と組織化は、LLM ベースのコードエージェントの retrieval、推論、実行にどう影響しますか?
- RQ3動的自己精錬と記憶の内部化は、反復を通じた長期的なエージェント性能にどのような影響を与えますか?
- RQ4人間が検証した解法の内部化は時間とともに持続的な向上をもたらしますか?
主な発見
| Method | Setting | Resolved(%) |
|---|---|---|
| MemCoder + GPT-5.2 | pass@ 2 | 83.8 (419) |
| MemCoder + GPT-5.2 | pass@ 1 | 78.8 (394) |
| MemCoder + DeepSeek-V3.2 | pass@ 1 | 77.8 (389) |
| OpenHands + Claude Opus 4.5 | pass@ 3 | 77.6 (388) |
| OpenHands + Claude Sonnet 4.5 | pass@ 3 | 74.6 (373) |
| OpenHands + GPT-5.2 | pass@ 3 | 74.4 (372) |
| OpenHands + Gemini 3 pro | pass@ 3 | 70.4 (352) |
- MemCoder は SWE-bench Verified で SOTA を達成し、GPT-5.2 がトップ手法に匹敵する水準を提供します。
- MemCoder + GPT-5.2 を用いると、SWE-bench Verified で pass@2 の解決率 83.8%、pass@1 の解決率 78.8% を達成します(ベースラインと比較)。
- MemCoder + GPT-5.2 は DeepSeek-V3.2 のような一般的モデルを上回り、83.8% 対 68.4% の改善を paper の文脈で示します。
- アブレーション研究は、3 つのモジュール(コミット取得 CR、経験表現 ER、動的自己精錬 DSR)のすべてが利得に寄与し、CR が最大の影響を与えることを示します。
- 構造化記憶は生のコミットよりも堅牢な改善をもたらし、標準化されたエージェント向け記憶表現の重要性を裏付けます。
- 取得の粒度と量にはトレードオフがあり、中程度の初期 top-k と制御された取得が最良の性能を発揮し、ノイズと収益逓減を回避します。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。