Skip to main content
QUICK REVIEW

[논문 리뷰] Your Code Agent Can Grow Alongside You with Structured Memory

Yi-Xuan Deng, Xiaoqin Liu|arXiv (Cornell University)|2026. 02. 25.
Software Engineering Research인용 수 0
한 줄 요약

MemCoder는 과거 커밋을 메모리에 구조화하고 자기 개선을 사용하여 지속적인 인간-AI 공동진화를 가능하게 하여 SWE-bench Verified에서 SOTA 성능을 달성하고 DeepSeek-V3.2의 해결률을 77.8%로 끌어올립니다.

ABSTRACT

While "Intent-oriented programming" (or "Vibe Coding") redefines software engineering, existing code agents remain tethered to static code snapshots. Consequently, they struggle to model the critical information embedded in the temporal evolution of projects, failing to leverage the "reasoning trajectories" implicit in past successful practices. This limitation results in rigid behavioral logic and a lack of autonomous adaptability, ultimately hindering their ability to tackle complex, repository-level problems. To bridge this static-dynamic mismatch, we propose MemCoder, a framework designed to enable continual human-AI co-evolution. MemCoder first structures historical human experience to distill latent intent-to-code mappings from past commits. It then employs a self-refinement mechanism driven by verification feedback to correct agent behavior in real-time. Crucially, an experience self-internalization mechanism is introduced to crystallize human-validated solutions into long-term knowledge, thereby supporting sustained evolution. Experimental results on SWE-bench Verified demonstrate that MemCoder not only achieves State-of-the-Art (SOTA) performance but also delivers a 9.4% improvement in resolved rate over the general foundation model DeepSeek-V3.2. These findings indicate that equipping agents with the capability to co-evolve with humans via project history and real-time feedback effectively unlocks the potential of general models in complex software engineering tasks.

연구 동기 및 목표

  • 저장소 수준 작업에서 정적 코드 에이전트의 한계와 지속적인 인간-AI 공동진화의 필요성을 식별한다.
  • MemCoder를 제안하여 과거 개발자 경험을 메모리로 구조화하고 실행 시 정제 및 솔루션의 장기 내재화를 가능하게 한다.
  • 구조화된 메모리와 피드백을 활용하면 SWE-bench Verified에서 강력한 베이스라인에 비해 성능이 향상된다.
  • 사람이 검증한 지식을 내부화하여 에이전트의 프로젝트 간 진화를 지속할 수 있음을 보인다.

제안 방법

  • MemCoder를 세 단계 프레임워크로 도입한다: (1) 과거 커밋에서 구조화된 메모리 엔트리를 만들어latent intent-to-code 매핑을 포착한다; (2) Refining Sub-agent를 통한 맥락 인식의 이중 단계 검색 및 실행 시 자기 개선을 수행한다; (3) human-validated 솔루션을 장기 기억으로 내재화하여 공동 진화 루프를 닫는다.
  • 경험을 메모리 엔트리 m_i = (o_i, c_i, k_i, p_i, r_i, s_i)로 나타내며, 커밋으로부터 LLM과 제너레이터 프롬프트 P_gen을 사용해 추출한다.
  • 두 단계 검색 사용: (a) 임베디드 메모리에 대한 빠른 근사 최근접 이웃 검색; (b) 최종 관련성 선정을 위한 크로스-인코더 재랭킹.
  • p, 실행 추적, 피드백 및 검색된 메모리에 조건화된 테스트 코드 t와 검증 체크리스트 l을 생성하는 Refining Sub-agent를 통한 동적 자기 개선을 가능하게 한다.
  • f_intern을 통해 입증된 경험을 메모리에 내재화하고 새로운 메모리 엔트리로 M을 업데이트하여 장기 지식 성장을 가능하게 한다.
  • MemCoder를 SWE-bench Verified에서 GPT-5.2를 백본으로 평가하고(DeepSeek-V3.2로 확인), 최상위 방법과의 비교 및 모듈 기여를 평가하기 위한 차등 실험을 수행한다.
Figure 1 : Comparison of MemCoder with existing methods. MemCoder facilitates evolution by learning the intrinsic mapping from high-level intent to concrete code implementation, derived from structured memory.
Figure 1 : Comparison of MemCoder with existing methods. MemCoder facilitates evolution by learning the intrinsic mapping from high-level intent to concrete code implementation, derived from structured memory.

실험 결과

연구 질문

  • RQ1MemCoder의 구조화된 메모리와 자기 개선이 저장소 수준의 코드 패치 생성을 정적 코드 에이전트와 비교하여 개선할 수 있는가?
  • RQ2메모리의 품질과 조직이 LLM 기반 코드 에이전트의 검색, 추론, 실행에 어떤 영향을 미치는가?
  • RQ3동적 자기 개선과 메모리 내부화가 반복을 거듭할수록 장기적인 에이전트 성능에 어떤 영향을 미치는가?
  • RQ4솔루션의 인간 검증 내재화가 시간에 걸쳐 지속적인 이익을 가져오는가?

주요 결과

MethodSettingResolved(%)
MemCoder + GPT-5.2pass@ 283.8 (419)
MemCoder + GPT-5.2pass@ 178.8 (394)
MemCoder + DeepSeek-V3.2pass@ 177.8 (389)
OpenHands + Claude Opus 4.5pass@ 377.6 (388)
OpenHands + Claude Sonnet 4.5pass@ 374.6 (373)
OpenHands + GPT-5.2pass@ 374.4 (372)
OpenHands + Gemini 3 propass@ 370.4 (352)
  • MemCoder는 SWE-bench Verified에서 SOTA 성능을 달성했으며 GPT-5.2가 최상위 방법에 버금가는 성능을 제공한다.
  • MemCoder를 GPT-5.2와 함께 사용할 때 pass@2에서 83.8%, pass@1에서 78.8%의 해결률을 달성하며(베이스라인과 비교).
  • MemCoder와 GPT-5.2는 일반 모델인 DeepSeek-V3.2를 능가하며 논문의 맥락에서 83.8% 대 68.4%의 개선을 달성한다.
  • 차등 실험은 세 가지 모듈 모두(CR 커밋 검색, ER 경험 표현, DSR 동적 자기 개선)가 이익에 기여하며, CR이 가장 큰 영향을 제공한다.
  • 구조화된 메모리는 원시 커밋에 비해 강력한 개선을 이끌어내며, 표준화된 에이전트 친화적 기억 표현의 중요성을 검증한다.
  • 검색의 세분성 및 양은 상호 간에 트레이드오프를 보이며, 초기의 중간 top-k와 제어된 검색이 최상의 성능을 낳아 잡음과 수익 감소를 피한다.
Figure 2 : Architectural overview of MemCoder, illustrating a closed-loop human–AI co-evolution paradigm.In Stage 1, MemCoder reconstructs developer cognition by distilling raw commit histories into structured long-term memory, capturing latent intent-to-code mappings from historical human practices
Figure 2 : Architectural overview of MemCoder, illustrating a closed-loop human–AI co-evolution paradigm.In Stage 1, MemCoder reconstructs developer cognition by distilling raw commit histories into structured long-term memory, capturing latent intent-to-code mappings from historical human practices

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.