[논문 리뷰] KLong: Training LLM Agent for Extremely Long-horizon Tasks
KLong은 trajectory-splitting 감독 학습 미세조정과 함께 점진적 강화학습을 결합하고 확장 가능한 데이터 파이프라인인 Research-Factory를 통해 극히 긴 범위의 작업을 tackle하도록 설계된 오픈 소스 LLM 에이전트이다.
This paper introduces KLong, an open-source LLM agent trained to solve extremely long-horizon tasks. The principle is to first cold-start the model via trajectory-splitting SFT, then scale it via progressive RL training. Specifically, we first activate basic agentic abilities of a base model with a comprehensive SFT recipe. Then, we introduce Research-Factory, an automated pipeline that generates high-quality training data by collecting research papers and constructing evaluation rubrics. Using this pipeline, we build thousands of long-horizon trajectories distilled from Claude 4.5 Sonnet (Thinking). To train with these extremely long trajectories, we propose a new trajectory-splitting SFT, which preserves early context, progressively truncates later context, and maintains overlap between sub-trajectories. In addition, to further improve long-horizon task-solving capability, we propose a novel progressive RL, which schedules training into multiple stages with progressively extended timeouts. Experiments demonstrate the superiority and generalization of KLong, as shown in Figure 1. Notably, our proposed KLong (106B) surpasses Kimi K2 Thinking (1T) by 11.28% on PaperBench, and the performance improvement generalizes to other coding benchmarks like SWE-bench Verified and MLE-bench.
연구 동기 및 목표
- 표준 컨텍스트 창을 넘어서는 작업과 장기간 실행 실험(예: 연구 논문의 재현)을 처리해야 할 에이전트의 필요성을 자극한다.
- 극히 긴 범위의 작업을 위해 특별히 학습된 오픈 소스 LLM 에이전트 KLong을 소개한다.
- long-horizon 학습 데이터를 확장하고 루브릭을 확대하기 위한 데이터 생성 및 평가 파이프라인(Research-Factory)을 제안한다.
- 초기 맥락을 보존하면서도 컨텍스트 창에 맞춰 잘라내는 트래젝토리-분할 SFT를 개발한다.
- 장기 계획 및 실행을 개선하기 위해 점진적 RL과 단계별 타임아웃을 제안한다.
제안 방법
- 클로드4.5 Sonnet(Thinking)에서 수천 개의 긴 범위 트래젝토리를 자동으로 수집하고 루브릭을 구성하며 추출하는 Research-Factory를 구축한다.
- 에이전트 능력을 활성화하기 위해 지식, 코딩, 수학, 검색을 포괄하는 종합 SFT로 기본 모델을 사전 학습한다.
- 논문 읽기 접두사를 고정하고 하위 트래젝토리를 중첩시키며 나중 부분 컨텍스트를 잘라내 컨텍스트 창에 맞추는 트래젝토리-분할 SFT를 제안한다.
- 장기간 피드백을 위한 트래젝토리-분할과 점차 확장되는 타임아웃으로 여러 단계에서 학습하는 점진적 RL을 도입한다.
- 효율성과 견고성을 향상시키기 위해 유니파이드 샌드박스와 인프라 최적화(샌드박싱, 캐싱, 롤아웃 스케줄링, 심판 설정)를 사용한다.
실험 결과
연구 질문
- RQ1LLM 에이전트가 표준 컨텍스트 창을 초과하고 장기간 실험이 필요한 작업을 해결하도록 학습될 수 있는가?
- RQ2트래젝토리-분할 SFT 접근법이 기반 SFT와 비교해 극히 긴 범위의 행동 학습을 향상시키는가?
- RQ3타임아웃을 점차 늘려가며 점진적 RL이 긴 범위의 작업에서 안정화 및 성능 향상을 가져오는가?
- RQ4Research-Factory 파이프라인이 재현 가능한 연구 작업을 위한 고품질의 확장 가능한 데이터와 루브릭을 생성하는가?
주요 결과
- KLong은 PaperBench에서 오픈 소스 모델 중 평균 성능이 우수하고 일부 비공개 시스템과의 격차를 좁힌다.
- 트래젝토리-분할 SFT는 어시스턴트의 대화를 크게 늘리면서 성능을 높여 긴 범위의 행동에 대한 효과를 보여준다(예: Baseline에서 향상된 점수로).
- 더 긴 타임아웃을 가진 점진적 RL은 추가 이득을 가져오며 RL-6H가 최상의 전반적 성능을 달성한다.
- KLong은 SWE-bench Verified, Terminal-Bench Hard, SEC-bench, MLE-bench 대회 등 다른 긴 범위 도메인에도 잘 일반화된다.
- 인프라 최적화와 Research-Factory 파이프라인은 확장 가능한 데이터 생성과 더 강력한 평가 신호에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.