QUICK REVIEW

[논문 리뷰] SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents

Yifeng Ding, Lingming Zhang|arXiv (Cornell University)|2026. 01. 29.

Software Engineering Research인용 수 0

한 줄 요약

SWE-Replay은 보관된 궤적을 재사용하여 현대 SWE 에이전트의 테스트 시 Scale을 효율적으로 가능하게 하며, 여러 벤치마크 및 백엔드에서 샘플링 비용을 줄이면서 해법 품질을 유지하거나 개선합니다.

ABSTRACT

Test-time scaling has been widely adopted to enhance the capabilities of Large Language Model (LLM) agents in software engineering (SWE) tasks. However, the standard approach of repeatedly sampling trajectories from scratch is computationally expensive. While recent methods have attempted to mitigate costs using specialized value agents, they can suffer from model miscalibration and fail to generalize to modern agents that synthesize custom bash scripts as tools. In this paper, we introduce SWE-Replay, the first efficient and generalizable test-time scaling technique for modern agents without reliance on potentially noisy value estimates. SWE-Replay optimizes the scaling process by recycling trajectories from prior trials, dynamically choosing to either explore from scratch or exploit archived experience by branching at critical intermediate steps. This selection of intermediate steps is driven by the potential and reasoning significance of repository exploration, rather than external LLM-based quality estimates. Our evaluation shows that, on SWE-Bench Verified, SWE-Replay consistently outperforms naive scaling, reducing costs by up to 17.4% while maintaining or even improving performance by up to 3.8%. Further evaluation on SWE-Bench Pro and Multilingual validates the generalizability of SWE-Replay, establishing it as a robust foundation for efficient test-time scaling of software engineering agents.

연구 동기 및 목표

현대 SWE 에이전트 및 저장소에서 효율적인 테스트 시 스케일링의 필요성을 자극합니다.
LLM 기반 품질 추정에 의존하지 않는 일반화 가능한 궤적 재사용 방법으로 SWE-Replay를 소개합니다.
SWE-Bench Verified, Pro, Multilingual 전반에서 비용 및 성능 이점을 시연합니다.
SWE-Replay의 구성 요소(선택, 그룹화, 필터링)와 이들이 성능에 기여하는 바를 분석합니다.
재현 가능한 실증 및 이론적 직관으로 재생 기반 탐색이 왜 효율성을 향상시키는지 설명합니다.

제안 방법

샘플링된 궤적의 보관을 유지하고, 중간의 중요 단계에서 새로 탐색하거나 보관된 궤적을 활용할지 재귀적으로 결정합니다.
단계들을 단계에 앞서 탐색된 파일들의 집합인 추상 저장소 상태로 표현하고, 드물게 방문된 영역의 탐색을 유도하기 위해 희귀도 기반 소프트맥스 샘플링을 사용합니다.
추론 단계를 숫자 추론 단락 수를 추론 강도의 대리 변수로 삼아 분기를 안내합니다.
가능하면 저장된 차이를 적용해 선택된 단계 이전의 환경 상태를 복원하거나 필요 시 액션을 재생하여 오버헤드를 최소화합니다.
선택된 중요한 단계에서 이를 새로 샘플링된 단계로 대체하고 탐색을 계속하여 궤적을 새로 만들어 아카이브에 추가합니다.
SWE-Replay를 무작위 스케일링 및 LLM-판결로서의 비교 기준과 비교하여 효율성과 성능을 평가합니다.
궤적 필터링, 상태 추상화, 추론 기반 단계 선택의 역할을 검증하기 위한 무효화(abl) 연구를 제공합니다.

실험 결과

연구 질문

RQ1SWE-Replay가 여러 SWE 벤치마크 및 백엔드에서 naively 확장에 비해 궤적 샘플링 비용을 일관되게 줄일 수 있는가?
RQ2SWE-Replay가 서로 다른 에이전트 구조 및 언어(예: SWE-Bench Verified, Pro, Multilingual)에 일반화되는가?
RQ3각 구성 요소(궤적 필터링, 상태 추상화, 추론 기반 단계 선택)가 성능 및 효율성에 미치는 영향은 무엇인가?
RQ4SWE-Replay와 naively 확장 간에 탐색된 저장소 파일의 다양성은 어떻게 달라지는가?

주요 결과

SWE-Replay는 SWE-Bench Verified에서 naively 테스트 타임 확장의 비용을 최대 17.4%까지 감소시키면서 성능은 최대 3.8%까지 유지 또는 향상시킵니다.
SWE-Bench Pro 및 Multilingual에서 SWE-Replay는 최대 22.6%의 성능 이득과 최대 9.0%의 비용 절감을 달성하며 다양한 SWE 문제에 대한 일반화를 보여줍니다.
SWE-Replay는 무작위 확장 대비 탐색을 긴 꼬리의 저장소 파일로 이동시켜 탐색되는 파일의 다양성을 증가시킵니다.
합리적인 가정 하에서 SWE-Replay의 재생 전략이 임의 선택만큼이나 좋은 성공 확률을 달성한다는 이론적 직관을 제시하여 효율성 향상을 정당화합니다.
구성 요소를 제거(궤적 필터링, 상태 그룹화, 또는 추론 기반 단계 선택)하면 성능과 효율성이 모두 저하되어 전체 파이프라인의 필요성을 확인합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.