QUICK REVIEW

[論文レビュー] SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents

Yifeng Ding, Lingming Zhang|arXiv (Cornell University)|Jan 29, 2026

Software Engineering Research被引用数 0

ひとこと要約

SWE-Replay は archived trajectories を再利用して最新の SWE エージェント向けのテスト時スケーリングを効率化し、複数のベンチマークとバックエンドでサンプリングコストを削減しつつ、解法品質を維持または向上させます。

ABSTRACT

Test-time scaling has been widely adopted to enhance the capabilities of Large Language Model (LLM) agents in software engineering (SWE) tasks. However, the standard approach of repeatedly sampling trajectories from scratch is computationally expensive. While recent methods have attempted to mitigate costs using specialized value agents, they can suffer from model miscalibration and fail to generalize to modern agents that synthesize custom bash scripts as tools. In this paper, we introduce SWE-Replay, the first efficient and generalizable test-time scaling technique for modern agents without reliance on potentially noisy value estimates. SWE-Replay optimizes the scaling process by recycling trajectories from prior trials, dynamically choosing to either explore from scratch or exploit archived experience by branching at critical intermediate steps. This selection of intermediate steps is driven by the potential and reasoning significance of repository exploration, rather than external LLM-based quality estimates. Our evaluation shows that, on SWE-Bench Verified, SWE-Replay consistently outperforms naive scaling, reducing costs by up to 17.4% while maintaining or even improving performance by up to 3.8%. Further evaluation on SWE-Bench Pro and Multilingual validates the generalizability of SWE-Replay, establishing it as a robust foundation for efficient test-time scaling of software engineering agents.

研究の動機と目的

現代の SWE エージェントとリポジトリにおける効率的なテスト時スケーリングの必要性を動機づける。
LLM ベースの品質推定に依存しない、一般化可能な軌跡再利用法として SWE-Replay を導入する。
SWE-Bench Verified、Pro、Multilingual でのコストと性能の向上を実証する。
SWE-Replay の構成要素（選択、グルーピング、フィルタリング）とそれらが性能に与える寄与を分析する。
リプレイベースの探索が効率を改善する根拠となる経験的および理論的直観を提供する。

提案手法

サンプリングされた軌跡のアーカイブを維持し、初期から探索するか archived 軌跡を活用するかを臨界な中間ステップで分岐して決定する。
ステップを抽象的なリポジトリ状態（そのステップの前に探索したファイルの集合）で表現し、 rarity-based softmax によって探索が少ない領域を促進する。
推論量を代理指標として推論強度を示す推論段落数を用いて、分岐を導くように優先度付けする。
選択したステップの前に環境状態を回復する際、可能な場合は保存された差分を適用してオーバーヘッドを最小化するか、必要に応じてアクションをリプレイする。
選択した臨界ステップを新たにサンプルしたステップで置換して分岐を行い、探索を続けて新しい軌跡をアーカイブへ追加する。
SWE-Replay を naive scaling および LLM-as-a-Judge ベースラインと比較して効率と性能を評価する。
軌跡フィルタリング、状態抽象化、推論ベースのステップ選択の役割を検証するアブレーション研究を提供する。

実験結果

リサーチクエスチョン

RQ1SWE-Replay は naive scaling と比較して複数の SWE ベンチマークとバックエンドで軌跶サンプリングコストを一貫して削減できるか？
RQ2SWE-Replay は異なるエージェント構成と言語（例：SWE-Bench Verified, Pro, Multilingual）に一般化可能か？
RQ3各構成要素（軌跡フィルタリング、状態抽象化、推論ベースのステップ選択）が性能と効率に与える影響は？
RQ4SWE-Replay による探索のファイル多様性は naive scaling と比較してどう変化するか？

主な発見

SWE-Replay は SWE-Bench Verified で naively scale する場合のコストを最大 17.4% 削減しつつ、性能を最大 3.8% 向上させる。
SWE-Bench Pro および Multilingual で、SWE-Replay は最大 22.6% の性能向上と最大 9.0% のコスト削減を達成し、多様な SWE 問題への汎用性を示す。
SWE-Replay は naive scaling と比較して探索を長尾のリポジトリファイルへシフトさせ、探索ファイルの多様性を高める。
合理的な仮定のもとでの理論的直観として、SWE-Replay のリプレイ戦略はランダム選択と比べて少なくとも同等の成功確率を達成することを示し、効率性向上を正当化する。
アブレーション研究は、構成要素（軌跡フィルタリング、状態グルーピング、推論ベースのステップ選択）を削除すると性能と効率の双方が低下し、フルパイプラインの必然性を確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。