[논문 리뷰] Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition
RAIM은 저장소 수준의 아키텍처 인지 프레임워크를 도입하여 여러 설계 패치를 생성하고 영향 분석으로 패치를 선택하며 NoCode-bench Verified에서 최근 최고 성능을 달성합니다.
Implementing new features across an entire codebase presents a formidable challenge for Large Language Models (LLMs). This proactive task requires a deep understanding of the global system architecture to prevent unintended disruptions to legacy functionalities. Conventional pipeline and agentic frameworks often fall short in this area because they suffer from architectural blindness and rely on greedy single-path code generation. To overcome these limitations, we propose RAIM, a multi-design and architecture-aware framework for repository-level feature addition. This framework introduces a localization mechanism that conducts multi-round explorations over a repository-scale code graph to accurately pinpoint dispersed cross-file modification targets. Crucially, RAIM shifts away from linear patching by generating multiple diverse implementation designs. The system then employs a rigorous impact-aware selection process based on static and dynamic analysis to choose the most architecturally sound patch and avoid system regressions. Comprehensive experiments on the NoCode-bench Verified dataset demonstrate that RAIM establishes a new state-of-the-art performance with a 39.47% success rate, achieving a 36.34% relative improvement over the strongest baseline. Furthermore, the approach exhibits robust generalization across various foundation models and empowers open-weight models like DeepSeek-v3.2 to surpass baseline systems powered by leading proprietary models. Detailed ablation studies confirm that the multi-design generation and impact validation modules are critical to effectively managing complex dependencies and reducing code errors. These findings highlight the vital role of structural awareness in automated software evolution.
연구 동기 및 목표
- 자동화된, 아키텍처 인지를 필요로 하는 사전 소프트웨어 진화 작업으로 저장소 수준의 기능 추가를 촉진한다.
- 기존 방법의 아키텍처적 무지와 선형 생성 in existing methods를 해결하기 위해 RAIM를 제안한다.
- 아키텍처 인지 로컬라이제이션, 다중 설계 패치 생성, 영향 인지 패치 선택의 네 단계 프레임워크를 개발한다.
- NoCode-bench Verified에서 다수의 LLM 및 오픈 가중치 모델에 대한 RAIM의 효과성과 일반화를 입증한다.
제안 방법
- 저장소 수준의 코드 그래프를 구성하여 의미적·구조적 관계를 포착한다.
- 코드 그래프에서 다회 검색을 통해 아키텍처 인지 파일 및 함수 로컬라이제이션을 수행한다.
- 다수의 다양한 구현 설계와 대응 패치를 생성한다.
- 정적 변경 영향 분석과 동적 테스트 실행으로 후보 패치를 평가하여 최적 패치를 선택한다.
실험 결과
연구 질문
- RQ1RAIM은 저장소 수준 기능 추가 작업에서 최첨단 기준과 비교해 어떤 성과를 보이나?
- RQ2RAIM은 서로 다른 LLM 간 일반화되며 파일 간 기능 추가를 효과적으로 처리할 수 있는가?
- RQ3전체 성능에 기여하는 RAIM 구성 요소(로컬라이제이션, 다중 설계 생성, 영향 분석)의 기여도는 무엇인가?
- RQ4패치 선택 전략이 기능 정확성과 아키텍처 무결성의 균형을 얼마나 효과적으로 달성하나요?
주요 결과
| 방법 | 모델 | RT (%) | FV-마이크로 (%) | FV-매크로 (%) | 성공 (%) |
|---|---|---|---|---|---|
| OpenHands | Qwen3-235B | 47.37 | 1.96 | 14.03 | 7.89 |
| DeepSeek-R1 | Qwen3-235B | 46.49 | 0.47 | 10.86 | 7.02 |
| DeepSeek-v3 | Qwen3-235B | 49.12 | 1.68 | 18.29 | 11.40 |
| Gemini-2.5-Pro | - | 61.40 | 0.01 | 0.29 | 0.00 |
| Claude-4-Sonet | - | 69.30 | 11.25 | 36.48 | 25.44 |
| Agentless | Qwen3-235B | 76.32 | 8.75 | 22.39 | 13.16 |
| GPT-5-Chat | - | 82.46 | 8.50 | 33.01 | 18.42 |
| DeepSeek-R1 | - | 73.68 | 10.87 | 35.52 | 25.44 |
| DeepSeek-v3 | - | 78.95 | 7.96 | 32.80 | 21.05 |
| DeepSeek-v3.2 | - | 28.95 | 9.46 | 37.42 | 28.95 |
| DeepSeek-v3.2-thinking | - | 79.82 | 8.41 | 37.02 | 27.19 |
| Gemini-2.5-Pro | - | 74.56 | 6.22 | 20.55 | 12.28 |
| Claude-4-Sonet | - | 79.82 | 8.47 | 38.48 | 28.07 |
| RAIM | Qwen3-235B | 79.82 | 9.76 | 27.45 | 16.67 |
| GPT-5-Chat | - | 89.47 | 13.43 | 32.33 | 21.93 |
| DeepSeek-v3 | - | 81.58 | 15.14 | 35.64 | 25.44 |
| DeepSeek-R1 | - | 77.19 | 12.47 | 41.79 | 29.82 |
| DeepSeek-v3.2 | - | 85.96 | 16.01 | 45.58 | 34.21 |
| DeepSeek-v3.2-thinking | - | 78.07 | 11.93 | 41.74 | 29.82 |
| Gemini-2.5-Pro | - | 82.46 | 17.16 | 52.09 | 39.47 |
| - | - | - | - | - | - |
- RAIM은 Gemini-2.5-Pro로 NoCode-bench Verified에서 새로운 최첨단 성공률 39.47%를 달성했고, 이전 최고 대비 상대적 36.34% 향상을 보였다.
- RAIM은 또한 DeepSeek-v3.2와 같은 오픈 가중치 모델이 34.21%의 성공률에 도달하게 하여 강력한 독점 모델을 사용하는 다수의 기준선을 능가한다.
- 차감 연구는 다중 설계 생성과 영향 검증이 복잡한 의존성을 관리하고 코드 오류를 줄이는 데 중요하다고 보여준다.
- RAIM은 7개의 LLM에 걸쳐 강력한 일반화를 보여주며 특히 복잡한 파일 간 수정 작업에서 상당한 이점을 얻는다.
- 이 접근법은 생산 등급 소프트웨어에서 회귀를 방지하기 위해 아키텍처 인지와 변경 영향 분석을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.